1.随机变量及其分布
随机变量是一个从样本空间(所有可能结果的集合)到实数集的函数。样本空间中的每个结果都对应于随机变量的一个值。随机变量的值可以是离散的,也可以是连续的。随机变量通常用大写字母表示,如 X、Y 或 Z。
1.1随机变量和事件的联系
- 定义事件:
事件可以定义为随机变量取特定值的集合。一般用{X=?}表示。
例如,如果随机变量 X 表示掷骰子的结果,那么事件 "掷得奇数" 可以表示为 {X=1} 或 {X=3}或 {X=5}。
- 使用随机变量描述事件:
随机变量的值可以定义复杂的事件。
例如,事件 "掷骰子的结果大于4" 可以表示为 {X>4},其中 X 是随机变量。
例如,掷硬币的结果为正面、反面,在数学中不方便描述,可以将正面映射为数字1,反面映射为0,那么事件"掷出正面"可以表示为{X=1},事件"掷出反面"可以表示为{X=0}。
- 概率分布:
随机变量的概率分布描述了它取每个可能值的概率。这个分布可以用来计算事件的概率。在随机变量表示的事件前加上P来表示:P{X=?}或者P(X=?)。
例如,随机变量 X 的概率质量函数(PMF)或概率密度函数(PDF)可以用来计算 P(X=k) 或 P(a<X<b)。
1.2离散型随机变量及其概率分布
1.2.1离散型随机变量的特点
①可数性:随机变量的取值是可数的,即有限个或可数无限个。
②离散性:取值之间有“间隔”,不是连续变化的。
③概率分布:每个取值都有一个特定的概率,且所有取值的概率之和等于1。
1.2.2离散型随机变量的概率分布
离散型随机变量的概率分布通常由概率质量函数(Probability Mass Function, PMF)描述。PMF 定义了随机变量每个可能取值的概率。
1.2.3概率质量函数(PMF)
对于离散型随机变量 X,其概率质量函数为:其中 x* 是 X 可能取的值。PMF 满足以下条件:
①非负性:对于所有的 x,有 P(X=x)≥0。
②归一性:所有可能取值的概率之和等于1,即
1.3连续型随机变量及其概率密度函数
连续型随机变量是取值可以是某个区间内任意实数的随机变量。与离散型随机变量不同,连续型随机变量的取值是连续的,不可数的。连续型随机变量的概率分布通常由概率密度函数(Probability Density Function, PDF)描述。
1.3.1连续型随机变量的特点
①连续性:随机变量的取值是连续的,可以在一个或多个区间内取任意值。
②不可数性:取值是不可数的,即有无限多个可能的取值。
③概率分布:每个取值区间都有一个特定的概率,且整个取值范围的概率密度函数积分等于1。
④连续型的随机变量取值在任意一点的概率都是0。在函数曲线上某个点的概率其实是取的该点附近值的大小。
⑤连续情况下,端点取不取得到无影响。P{a≤x≤b}=P{a<x<b}
1.3.2概率密度函数
对于一维实随机变量X,如果存在非负可积函数f(x),使得对于任意实数x,a<b,有:
,则称f(x)为随机变量X的概率密度函数。
1.3.3密度函数f(x) 的性质
- 非负性
对于所有的 x,有
- 归一性
概率密度函数在整个取值范围的积分等于1,即
概率密度函数的积分其实就是求曲线在某个区间内的面积。
1.4分布函数
分布函数是描述随机变量取值分布情况的函数,无论是离散型随机变量还是连续型随机变量,都可以通过分布函数来描述其概率特性。分布函数通常指的是累积分布函数(Cumulative Distribution Function, CDF),用 F(x) 表示。
1.4.1累积分布函数(CDF)
对于随机变量 X,其累积分布函数 F(x) 定义为随机变量 X 取值小于或等于 x 的概率:
1.4.2CDF 的性质
①非减性:随着 x 的增加,F(x) 是非减的,即 F(x1)≤F(x2)对于所有的 x1≤x2 成立。
②范围:F(x)的值域在 0 到 1 之间,即 0≤F(x)≤1。
③边界条件
④右连续:F(x) 在任意点 x 都是右连续的。对于离散型随机变量,F(x) 在任意点 x 是右连续,对于连续型随机变量,F(x) 在任意点 x 是连续的。
1.4.3分布函数的公式
1.1.4对于不同类型随机变量的CDF
1.1.4.1离散型随机变量的累积分布函数
对于离散型随机变量,CDF 是阶梯式的,每个可能的取值点都有一个跳跃。
累积分布函数 F(x) 可以表示为:
1.1.4.2连续型随机变量的累积分布函数
对于连续型随机变量,CDF 是概率密度函数(PDF)的积分,并且是连续且光滑的(除非在某些点上有跳跃)。
累积分布函数 F(x) 可以表示为:
分布函数其实就是求曲线在某个区间内的面积。
1.5常见的分布
离散型分布:0-1分布、几何分布、二项分布、泊松分布
连续型分布:均匀分布、指数分布、正态分布
1.5.1 0-1分布
0-1分布,也称为伯努利分布,是一种特殊的离散概率分布。它描述了在单次伯努利试验中只有两种可能结果的随机变量,通常这两种结果被称为“成功”和“失败”。
对于伯努利随机变量 XX,其概率质量函数为:
其中:
-
x 可以是0或1。
-
p 是成功(x=1)的概率。
-
1−p 是失败(x=0)的概率。
用分布表来表示:
X | 1 | 0 |
P | p | 1-p |
0-1分布式伯努利试验只做一次的分布函数,如果是n重伯努利试验,分布函数则为(详见事件概率的伯努利公式):
1.5.2 几何分布
几何分布(Geometric Distribution)是描述在成功之前需要进行的试验次数的离散型概率分布。具体来说,几何分布描述的是在独立重复的伯努利试验中,首次成功所需的试验次数。
如果随机变量 X 表示获得第一次成功所需的试验次数,那么几何分布的概率质量函数为:
其中:
-
k 是获得第一次成功时试验的次数,k=1,2,3,…
-
p 是单次试验成功的概率。
-
1−p 是单次试验失败的概率。
简单理解:在试验第k次时试验成功,那么前边k-1次试验都没有成功,所以几何分布表示前边没成功概率的次数乘以当前成功的概率。
1.5.3 二项分布
二项分布的概率质量函数(PMF):
如果随机变量 X 表示 n 次伯努利试验中成功的次数,那么 X 服从参数为 n 和 p 的二项分布,记作 X∼B(n,p)。二项分布的概率质量函数为:
其实就是事件概率中的伯努利公式。
k的最大可能值:
k 取最接近 (n+1)p 的整数:
①(n+1)p不为整数,则取最接近 (n+1)p 的整数为最大值。
②(n+1)p为整数,则取 (n+1)p 和(n+1)p-1都是最大值。
1.5.4 泊松分布
泊松分布(Poisson Distribution)是描述在固定时间或空间内事件发生次数的离散型概率分布。它适用于事件发生的概率较小且事件之间相互独立的情况。
设随机变量 X 服从泊松分布,其参数为 λ,表示单位时间或空间内事件发生的平均次数。则 X 的概率质量函数(PMF)为:
其中:
-
k 是事件发生的次数,k=0,1,2,…。
-
λ 是单位时间(或单位面积)内事件平均发生的次数。
泊松分布在实际中有广泛的应用,例如:
-
交通流量分析:描述一段时间内通过某个路口的车辆数。
-
电话呼叫中心:预测一定时间内接到的电话数量。
-
生态学:模拟某段时间内到达的候鸟数量。
-
放射性物质:描述一定时间内放射性物质发射粒子的数量。
当二项分布的试验次数 n 很大而成功概率 p 很小时,二项分布可以用泊松分布来近似。具体来说,如果 n 足够大且 np=λ 保持不变,则二项分布 B(n,p)可以用泊松分布 P(λ)来近似。
1.5.5 均匀分布
在连续均匀分布中,所有可能的结果是连续的,并且在相同长度间隔的分布概率是相同的。
- 均匀分布的概率密度函数(PDF)
对于连续型随机变量 X,如果它服从区间 [a,b]上的均匀分布,其概率密度函数为:
其中:
-
a 是区间的下界。
-
b 是区间的上界。
-
b−a 是区间的长度。
为什么f(x)=1/(b-a)?
根据概率密度函数定义可知,在整个取值范围的积分等于1,其积分就是求曲线面积,f(x)在曲线中相当于高,(b−a)相当于曲线的宽,所以曲线面积
- 累积分布函数(CDF)
- 累积分布函数的推导过程
1.5.6 指数分布
指数分布(Exponential Distribution)是一种连续概率分布,它描述了在两个连续事件发生之间的时间间隔,这两个事件是完全随机的,且具有恒定的平均发生率。指数分布通常用于模拟独立随机事件发生的时间间隔,如电话呼叫的到达时间、放射性物质的衰变时间等。
- 概率密度函数
其中:
x 是随机变量,表示事件发生的时间间隔。λ 是率参数,表示单位时间内事件发生的平均次数。
- 分布函数
- 分布函数的推导过程
1.5.7 正态分布
正态分布(Normal Distribution),也称为高斯分布(Gaussian Distribution),是连续概率分布的一种。它是统计学中最重要的概率分布之一,因为许多自然和社会现象的分布都近似于正态分布。正态分布在自然科学和社会科学的许多领域都有应用,包括生物学、物理学、经济学和社会科学,记作:
1.5.7.1 正态分布
- 概率密度函数
其中:
x 是随机变量。μ 是均值。σ是标准差。σ^2是方差。
- 正态分布的概率密度函数的性质
(1)y=f(x)以x=u为对称轴
(2)x=u时,f(x)取到最大值
(3)y=f(x)以x轴为渐近线,x±σ为拐点
(4)σ固定,u变化,图像左右移动;u固定,σ变小,最高点上移,σ变大,最高点下移
- 分布函数
1.5.7.2 标准正态分布
标准正态分布的均值为0,标准差为1
- 概率密度函数
- 分布函数
性质
(1)y轴是对称轴,为偶函数
(2)概率密度函数:根据偶函数定义可知,
(3)分布函数:
根据曲线图像方便观察:
由上图可知,F(-x)是曲线中红色部分的面积,F(x)是曲线中黄色部分的面积,由分布函数的性质可知,整个曲线的面积=1,所以蓝色部分的面积=1-黄色部分面积=1-F(x),另外正态分布曲线是以y轴对称的,蓝色部分的面积=F(-x),所以:F(-x)=1-F(x)
1.5.7.3 正态分布标准化
- 标准化的步骤
- 标准化的公式
标准化后的随机变量 Z 的公式为:
- 标准化正态分布和正态分布的关系
1.6离散型随机变量函数的分布
离散型随机变量函数的分布通常指的是如何从已知的离散型随机变量出发,通过某种函数关系得到新的随机变量,并确定这个新随机变量的概率分布。
1.6.1离散型随机变量函数的分布的计算方法
假设有一个离散型随机变量 XA,其概率质量函数(PMF)为 P(X=x),现在我们定义一个新的随机变量 Y=g(X),其中 g 是一个函数。我们想要找到 Y 的概率分布。
1.6.2直接法离散型随机变量概率
对于每一个可能的 y 值,我们可以通过以下步骤计算 Y 取值为 y 的概率:
①确定 x 的值:找出所有使得 g(x)=y 成立的 x 的值。
②计算概率:对于每个满足条件的 x,将 X 取该值的概率相加。
数学上,这可以表示为:
其中表示所有使得 g(x)=y成立的 x 的集合。可以理解为y=g(x)的逆函数。
1.6.3间接法离散型随机变量概率
如果函数 g 是单调的,或者 Y 的取值范围有限,我们可以通过以下步骤计算 Y 的概率分布:
①列出所有可能的 y 值:确定 Y 可能取到的所有值。
②计算每个 y 的概率:对于每个 y,计算 P(Y=y)。
对于离散型随机变量函数的分布函数计算,最简单的方法是列出随机变量X的分布表,然后根据新的函数关系计算出新随机变量Y的值,其值对应的概率就是X原来值对应的概率值,然后形成分布表,如果Y值有重复,则将重复值对应的概率相加即可。
1.7连续型随机变量函数的分布
连续型随机变量函数的分布是指通过一个连续型随机变量 XX的函数 Y=g(X)得到的新的随机变量 Y 的分布。
1.7.1计算方法:分布函数法
①计算 Y 的分布函数:
②求导得到概率密度函数:
例子
2多维随机变量及其分布
2.1二维随机变量及其分布
假设E是随机试验,Ω是样本空间,X、Y是Ω的两个变量;(X,Y)就叫做二维随机变量或二维随机向量。X、Y来自同一个样本空间。
2.1.1联合分布函数
几何意义:表示对立体曲线的体积
即F(x,y)表示求(x,y)左下方的面积。
2.1.2联合分布函数的性质
(1)0≤F(x,y) ≤1
(2)F(x,y) 不减,例如:y固定,x1<x2,F(x1,y)<F(x2,y)
(3)F(-∞,y)=F(x,-∞)=F(-∞,-∞)=0,F(+∞,+∞)=1
(4)F(x,y)分别关于x和y右连续
(5)
2.1.3边缘分布
X的边缘分布:
这表示在所有可能的 Y 值上,X 取值 x 的概率总和。从图形曲线上理解就是求小于x的所有点的面积,Y随意取值。
Y的边缘分布:
表示在所有可能的 X 值上,Y 取值 y的概率总和。从图形曲线上理解就是求小于y的所有点的面积,X随意取值。
2.2二维离散型随机变量的联合分布和边缘分布
联合概率质量函数 P(X=x,Y=y) 描述了随机变量 X 和 Y 同时取特定值 x 和y 的概率。
2.2.1联合PMF的性质
2.2.2联合分布函数
2.2.3边缘分布
边缘概率质量函数可以通过对联合PMF的适当求和得到。
概率分布表解释:
对行求和,得到对X的边缘分布。
对列求和,得到对Y的边缘分布。
2.3二维连续随机变量的联合密度和边缘密度函数
对于二维连续随机变量 X 和 Y,其分布函数为:
则F(x,y)是分布函数,f(x,y)是联合密度函数。
2.3.1联合密度函数f(x,y)的性质
2.3.2边缘密度函数
求X的边缘密度函数就是对y求积分
求Y的边缘密度函数就是对x求积分
2.4条件分布
条件分布是指在已知另一个随机变量或事件的条件下,该随机变量的概率分布。
2.5离散型随机变量的条件分布
条件概率质量函数定义为:
其中 P(X=x,Y=y)是 X 和 Y的联合概率质量函数,P(Y=y) 是 Y 的边缘概率质量函数。
从分布表来理解
2.6连续型随机变量的条件分布
2.7随机变量的独立性
两个随机变量 X 和 Y被称为独立的,如果它们满足以下条件:
对于连续型随机变量:它们的联合概率密度函数f(x,y)可以表示为各自边缘概率密度函数的乘积:
对于离散型随机变量:它们的联合概率质量函数P(X=x,Y=y)可以表示为各自边缘概率质量函数的乘积:
2.8二维随机变量函数的分布
2.8.1 二维离散型随机变量函数的分布
二维离散型随机变量函数的分布指的是在给定两个离散型随机变量 X 和 Y的情况下,它们函数 Z=g(X,Y)的分布。这里g(X,Y)是一个定义在 X和 Y取值范围内的函数。
要找到函数 Z 的分布,我们需要确定 Z 的每一个可能值的概率。具体步骤如下:
①确定函数的输出值:列出函数 Z=g(X,Y)可能的所有输出值。
②计算每个输出值的概率:对于每一个可能的输出值 z,计算 Z=z的概率。这通常涉及到对 X 和 Y的联合概率质量函数 P(X=x,Y=y)进行求和。
③构建概率质量函数:构建函数 Z 的概率质量函数,即对于每一个可能的 z,确定 P(Z=z)。
2.8.2 二维连续型随机变量函数的分布
二维连续型随机变量函数的分布是指由两个连续型随机变量 (X,Y)构成的联合分布,并通过某种函数关系 Z=g(X,Y)得到一个新的随机变量 Z的分布。
假设 (X,Y)是一个二维连续型随机变量,其联合概率密度函数为 f(x,y)。设 Z=g(X,Y) 是一个函数关系,其中 g 是一个已知的函数。我们需要找到 Z 的概率密度函数:
具体步骤如下:
3期望与方差
3.1数学期望
数学期望是概率论中的一个重要概念,它描述了一个随机变量的平均值或中心值。数学期望也被称为期望值或均值。它是对随机变量可能取值的加权平均,其中权重是每个可能取值的概率。
3.1.1 离散型随机变量的期望
对于离散随机变量 X ,其可能的取值为 x1,x2,…,xn,对应的概率为
则 X 的数学期望定义为:
其中 xi是随机变量 X 的可能取值,pi是 X取值为 xi的概率。
3.1.2 连续型随机变量的期望
对于连续随机变量 X ,其概率密度函数为 f(x) ,则 X 的数学期望定义为:
说明:
可以将x理解为随机变量X的取值,f(x)理解为对应的概率。在严格意义上不是正确的,帮助我们理解。
例子
3.1.3 随机变量函数的期望
3.1.3.1 离散型随机变量函数的期望
如果 X 是一个离散随机变量,其可能的取值为 x1,x2,…,xn,对应的概率为 P(X=xi)=pi,那么函数 Y=g(X) 的期望值定义为:
说明:
g(xi):X的取值xi带入函数Y=g(X)得到的新的取值。
计算逻辑:
将X的取值直接带入Y=g(X)函数得出新的取值,然后新值乘以对应的概率,将所有新取值与对应概率乘积相加即可。
例子
假设X的概率分布表:
X | 0 | 1 | 2 |
---|---|---|---|
P | 0.1 | 0.6 | 0.3 |
函数Y=4X+1,求Y的期望。
3.1.3.2 连续型随机变量函数的期望
如果 X 是一个连续随机变量,其概率密度函数为 f(x),那么函数 Y=g(X)的期望值定义为:
例子
3.1.3.3 二维离散型随机变量函数的期望
如果 (X,Y) 是离散随机变量,其取值集合为 {(xi,yj)} ,对应的概率为
那么函数 Z=g(X,Y) 的数学期望定义为:
说明:
表示将X、Y的所有取值按照Z=g(X,Y) 计算出新的取值。
例子
假设X、Y联合概率分布表:
X\y | 0 | 1 | 2 |
---|---|---|---|
1 | 0.1 | 0.1 | 0.2 |
2 | 0.2 | 0.2 | 0.2 |
求 Z=X^2-Y 的期望。
解:将X、Y的所有取值按照Z=g(X,Y) 计算出新的取值,乘以对应的概率,然后相加。
3.1.3.4 二维连续型随机变量函数的期望
如果 (X,Y) 是连续随机变量,其联合概率密度函数为 f(x,y),那么函数 Z=g(X,Y)的数学期望定义为:
这里,g(X,Y) 是 X和 Y的函数。
例子
3.1.4 数学期望的性质
常数的期望等于常数,E(C)=C
E(X+C)=EX+C
E(CX)=C*EX
E(kX+b)=k*EX+b
E(X+Y)=EX+EY E(X-Y)=EX+EY (任何时候都成立 ) E(∑CiXi) = ∑CiEXi
若X、Y独立,E(XY)=EX*EY
例子
假设X、Y独立,X和Y的分布表如下:
X | 9 | 10 | 11 |
---|---|---|---|
P | 0.3 | 0.5 | 0.2 |
Y | 6 | 7 |
---|---|---|
P | 0.4 | 0.6 |
3.2方差
方差是统计学中一个重要的概念,用于衡量随机变量或一组数据的离散程度。它反映了数据点与其平均值之间的偏离程度。方差越大,数据点越分散;方差越小,数据点越集中。
对于一个随机变量 X,其方差 Var(X)或DX定义为:
DX开平方得标准差。
3.2.1 离散型随机变量的方差
对于离散型随机变量 X,其方差可以表示为:
例子
X | -2 | 0 | 2 |
---|---|---|---|
P | 0.4 | 0.3 | 0.3 |
求方差DX。
解:
3.2.2 连续型随机变量的方差
对于连续型随机变量 XX,其方差可以表示为:
例子
3.2.3 方差的性质
常数的方差:D(C) = 0
D(X+C) = DX
X、Y独立,D(X±Y) = DX+DY
X、Y不独立,D(X±Y) = DX+DY±2Cov(X,Y)
注意:方差的性质与期望性质的不同。
3.3常见的离散型变量的期望与方差
3.3.1 0-1分布
X | 0 | 1 |
---|---|---|
p | 1-p | p |
3.3.2 二项分布
3.3.3 几何分布
3.3.4 泊松分布
3.4常见的连续型变量的期望与方差
3.4.1 均匀分布
3.4.2 指数分布
3.4.3 正态分布
3.5协方差
协方差是衡量两个随机变量之间线性关系强度的统计量。
①如果两个变量的协方差为正,它们之间存在正相关关系;
②如果协方差为负,它们之间存在负相关关系;
③如果协方差为零,它们之间没有线性关系。
3.5.1 协方差的定义
对于两个随机变量 X 和 Y,它们的协方差定义为:
3.5.2 协方差的性质
3.5.3 相关系数
协方差的一个限制是它的值依赖于变量的尺度。为了克服这个限制,通常使用相关系数(Pearson相关系数)来衡量两个变量之间的线性关系,其定义为:
相关系数的值在 -1 和 1 之间,其中 -1 表示完全负相关,1 表示完全正相关,0 表示没有线性关系。
解释
-
正相关:如果相关系数为正,表明当一个变量的值增加时,另一个变量的值也倾向于增加。
-
负相关:如果相关系数为负,表明当一个变量的值增加时,另一个变量的值倾向于减少。
-
无相关:如果相关系数为零,表明两个变量之间没有线性关系。可能有非线性相关。
3.6原点矩和中心距
中心距和原点矩分别描述了随机变量在其期望值(中心)和原点(零点)周围的分布情况。
3.6.1 原点矩
原点矩是随机变量 X与原点0的差 的幂次期望值。对于随机变量 X,其 k 阶原点矩定义为:
常见原点矩
3.6.2 中心距
中心距
中心距是随机变量 X 与其期望值 EX的差的幂次期望值。对于随机变量 X,其 k 阶中心距定义为:
常见中心距