随机事件与随机变量
一、随机事件
1.基本概念释义
现实生活中,一个动作或一件事情,在一定条件下,所得的结果不能预先完全确定,而只能确定是多种可能结果中的一种,称这种现象为随机现象。
掷骰子数字可能是1-6中任意一个,这就是随机现象。
使随机现象得以实现和对它观察的全过程称为随机试验,记为 E E E。随机实验满足以下三个条件:
1.可以在相同条件下重复进行;
2. 结果有多种可能性,并且所有可能结果事先已知;
3. 作一次试验究竟哪个结果出现,事先不能确定。
名词 | 符号 | 定义 |
---|---|---|
样本空间 | Ω \Omega Ω | 随机试验的所有可能结果组成的集合 |
样本点 | ω \omega ω | 试验的每一个可能结果 |
随机事件 | A , B , C . . . A,B,C... A,B,C... | 样本空间 Ω \Omega Ω中满足一定条件的子集。随机事件在随机试验中可能出现也可能不出现。 |
必然事件 | 在试验中,称一个事件发生是指构成该事件的一个样本点出现。由于样本空间\Omega包含了所有的样本点,所以在每次试验中,它总是发生,因此称\Omega为必然事件。 | |
不可能事件 | 空集 ϕ \phi ϕ不包含任何样本点,且在每次试验中总不发生 |
例子:
掷骰子游戏中,我们知道出现的结果可能是1,2,3,4,5,6其中的任意一个数字。那么出现任何一个数字,都可以成为一个样本点;随机事件是什么呢,就是一些样本点的的集合,当然了,是在一定条件下。比如,出现的数字是偶数的结果。
那么2,4,6就够成了一个随机事件A={2,4,6}。
样本空间就是1到6的六个数字
Ω
=
{
1
,
2
,
3
,
4
,
5
,
6
}
\Omega=\{1,2,3,4,5,6\}
Ω={1,2,3,4,5,6}。
可以看到A 是
Ω
\Omega
Ω的一个子集。
空集可以定义
ϕ
\phi
ϕ为结果的数字大于6,显然是不可能出现的。
概率
1.定义:
随机试验 E E E的样本空间为 Ω \Omega Ω,对于每个事件 A A A,定义一个实数 P ( A ) P(A) P(A)与之对应,若函数 P ( . ) P(.) P(.)满足条件:
-
对每个事件 A A A,均有 0 < P ( A ) < = 1 0<P(A)<=1 0<P(A)<=1;
-
P ( Ω ) = 1 P(\Omega)=1 P(Ω)=1;
-
若事件 A 1 , A 2 , A 3 , . . . A_1,A_2,A_3,... A1,A2,A3,...两两互斥,即对于 i , j = 1 , 2 , . . . , i ≠ j , A i ∩ A j = ϕ i,j=1,2,...,i \neq j ,A_i \cap A_j = \phi i,j=1,2,...,i=j,Ai∩Aj=ϕ,均有
P ( A 1 ∪ A 2 ∪ . . . ) = P ( A 1 ) + P ( A 2 ) + . . . P(A_1 \cup A_2 \cup ...)=P(A_1) +P(A_2) +... P(A1∪A2∪...)=P(A1)+P(A2)+...
则称 P ( A ) P(A) P(A)为事件 A A A的概率。
2.主要性质:
- 对于任一事件 A A A,均有 P ( A ‾ ) = 1 − P ( A ) P(\overline{A})=1-P(A) P(A)=1−P(A).
- 对于两个事件 A A A和 B B B,若 A ⊂ B A \subset B A⊂B,则有
$P(B-A) = P(B) - P(A), P(B) >P(A) $.
- 对于任意两个事件 A A A和 B B B,有
P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B ) P(A \cup B) = P(A) + P(B) - P(A\cap B) P(A∪B)=P(A)+P(B)−P(A∩B).
例子:
掷骰子中,1,2,3,4,5,6出现的概率均为1/6。 我们令
A
=
{
1
,
2
}
,
B
=
{
1
,
2
,
3
}
A = \{ 1,2 \},B = \{1,2,3\}
A={1,2},B={1,2,3}。那么有
A
‾
=
{
3
,
4
,
5
,
6
}
\overline{A}=\{ 3,4,5,6\}
A={3,4,5,6}。可以看到,出现1或2的概率为1/3,即
P
(
A
)
=
1
/
3
P(A) =1/3
P(A)=1/3;出现1或2或3的概率为1/2,即
P
(
B
)
=
1
/
2
P(B) =1/2
P(B)=1/2。根据性质我们有
- P ( A ‾ ) = 1 − P ( A ) = 1 − 1 / 3 = 2 / 3 P(\overline{A})=1-P(A) =1-1/3=2/3 P(A)=1−P(A)=1−1/3=2/3,也就是出现3或4或5或6的概率;
- P ( B − A ) = P ( B ) − P ( A ) = 1 / 2 − 1 / 3 = 1 / 6 P(B-A)=P(B) -P(A) =1/2-1/3=1/6 P(B−A)=P(B)−P(A)=1/2−1/3=1/6,也就是出现3的概率;
- P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B ) = 1 / 3 + 1 / 2 − 1 / 3 = 1 / 2 P(A \cup B) = P(A) + P(B) - P(A\cap B) = 1/3 +1/2 -1/3 = 1/2 P(A∪B)=P(A)+P(B)−P(A∩B)=1/3+1/2−1/3=1/2,也就是出现的1或2或3,也就是事件 B B B的概率;因为 A ⊂ B A \subset B A⊂B。这里的 A ∩ B = A = { 1 , 2 } A \cap B = A =\{ 1,2 \} A∩B=A={1,2}。
3.古典概型
我们将掷骰子游戏进行推广,设随机事件
E
E
E 的样本空间中只有有限个样本点,即
Ω
=
{
ω
1
,
ω
2
,
.
.
.
,
ω
n
}
\Omega= \{ \omega_1, \omega_2,..., \omega_n \}
Ω={ω1,ω2,...,ωn},其中,
n
n
n 为样本点的总数。每个样本点
ω
i
(
i
=
1
,
2
,
.
.
.
,
n
)
\omega_i (i =1,2,...,n)
ωi(i=1,2,...,n)出现是等可能的,并且每次试验有且仅有一个样本点发生,则称这类现象为古典概型。若事件
A
A
A 包含个
m
m
m 个样本点,则事件
A
A
A 的概率定义为:
P
(
A
)
=
m
n
=
事
件
A
包
含
的
基
本
事
件
数
基
本
事
件
总
数
P(A) = \frac{m} {n} = \frac{事件A包含的基本事件数} {基本事件总数}
P(A)=nm=基本事件总数事件A包含的基本事件数
假设有
k
k
k 个不同颜色的球,每个球以同样的概率
1
/
l
1/l
1/l 落到
l
l
l 个格子
(
l
>
=
k
)
(l>=k)
(l>=k) 的每个中,且每个格子可容纳任意多个球。问,分别求出如下两个事件
A
A
A 和
B
B
B 的概率。
- A A A :指定的 k k k 个格子中各有一个球;
- B B B :存在 k k k 个格子,其中各有一个球。
我们思考一下,由于每个球可以平均地落入 l l l 个格子中的任一个,并且每一个格子中可落入任意多个球,所以 k k k 个球落入 l l l 个格子中的分布情况相当于从 l l l 个格子中选取 k k k 个的可重复排列,故样本空间共有 l k l^k lk 种等可能的基本结果。
所以,事件 A A A 所含基本结果数应是 k k k 个球在指定的 l l l 个格子中的全排列数,即 k ! k! k!,那么有
P ( A ) = k ! l k P(A) = \frac{k!} {l^k} P(A)=lkk!
为了算出事件 B B B 所含的基本事件数,我们可以分两步进行:因为 l l l 个格子可以是任意选取的,故可先从 l l l 个格子中任意选出 k k k 个出来,那么选法共有 C l k C^k_l Clk 种。对于每种选定的 k k k 个格子,依上述各有一个球的推理,则有 k ! k! k!个基本结果,故B含有 C l k ∗ k ! C^k_l*k! Clk∗k! 个基本结果。那么有
P ( B ) = C l k ∗ k ! l k = l ! l k ∗ ( l − k ) ! P(B) = \frac {C^k_l*k!} {l^k} = \frac {l!} {l^k*(l-k)!} P(B)=lkClk∗k!=lk∗(l−k)!l!
我们把上述例子应有到具体的问题中,概率论的历史上有一个颇为著名的问题生日问题:求 k k k 个同班同学没有两人生日相同的概率。
如果把这 k k k 个同学看作上例中的 k k k 个球,而把一年365天看作格子,即 l = 365 l=365 l=365 ,则上述的 P ( B ) P(B) P(B)就是所要求的概率。我们令 k = 40 k=40 k=40 时,利用上面的公式,则 P ( B ) = 0.109 P(B) =0.109 P(B)=0.109。换句话说,40个同学中至少两个人同一天过生日的概率是: P ( B ‾ ) = 1 − 0.109 = 0.891 P(\overline {B}) = 1 - 0.109 =0.891 P(B)=1−0.109=0.891。其概率大的出乎意料。
这讲内容更多地是对概念知识的理解,不太涉及软件的实现,给出简单的 P ( B ) P(B) P(B)Python实现:
#我们采用函数的递归的方法计算阶乘:
def factorial(n):
if n == 0:
return 1;
else:
return (n*factorial(n-1))
l_fac = factorial(365); #l的阶乘
l_k_fac = factorial(365-40) #l-k的阶乘
l_k_exp = 365**40 #l的k次方
P_B = l_fac /(l_k_fac * l_k_exp) #P(B)
print("事件B的概率为:",P_B)
print("40个同学中至少两个人同一天过生日的概率是:",1 - P_B)
4.条件概率
1.定义:
设 A A A 和 B B B 是两个事件,且 P ( B ) > 0 P(B)>0 P(B)>0,称 $P(A|B) = \frac {P(AB)} {P(B)} $ 为在事件 B B B 发生的条件下,事件 A A A 发生的概率。
2.例子:
某集体中有 N N N 个男人和 M M M 个女人,其中患色盲者男性 n n n 人,女性 m m m 人。我们用 Ω \Omega Ω 表示该集体, A A A 表示其中全体女性的集合, B B B 表示其中全体色盲者的集合。如果从 Ω \Omega Ω 中随意抽取一人,则这个人分别是女性、色盲者和同时既为女性又是色盲者的概率分别为:
P ( A ) = M M + N , P ( B ) = m + n M + N , P ( A B ) = m M + N P(A) = \frac {M} {M+N} , P(B) = \frac {m+n} {M+N} , P(AB) = \frac {m} {M+N} P(A)=M+NM,P(B)=M+Nm+n,P(AB)=M+Nm
如果限定只从女性中随机抽取一人**(即事件 A A A 已发生),那么这个女人为色盲者的(条件)**概率为
P ( B ∣ A ) = m M = P ( A B ) P ( A ) P(B|A) = \frac {m} {M} = \frac {P(AB)} {P(A)} P(B∣A)=Mm=P(A)P(AB)
5.全概率公式和贝叶斯公式
-
准备知识:首先我们看一下概率乘法公式和样本空间划分的定义;
-
由条件概率公式,可以得到概率的乘法公式:
$P(AB)=P(B|A)P(A) =P(A|B)P(B) $
-
如果事件组,满足
- B 1 , B 2 , . . . B_1,B_2,... B1,B2,... 两两互斥,即 B i ∩ B j = ϕ , i ≠ j , i , j = 1 , 2 , . . . B_i\cap B_j = \phi,i \neq j ,i,j = 1,2,... Bi∩Bj=ϕ,i=j,i,j=1,2,...,且 P ( B i ) > 0 , i = 1 , 2 , . . . P(B_i)>0,i=1,2,... P(Bi)>0,i=1,2,...
- B 1 ∪ B 2 ∪ . . . = Ω B_1 \cup B_2 \cup ... = \Omega B1∪B2∪...=Ω
-
则称事件组 B 1 , B 2 , . . . B_1,B_2,... B1,B2,...是样本空间 $ \Omega$ 的一个划分。
-
全概率公式
设 B 1 , B 2 , . . . B_1,B_2,... B1,B2,...是样本空间 $ \Omega$ 的一个划分, A A A 为任一事件,则
P ( A ) = ∑ i = 1 ∞ P ( B i ) P ( A ∣ B i ) P(A) = \sum_{i=1}^{\infty } {P(B_i)}P(A|B_i) P(A)=∑i=1∞P(Bi)P(A∣Bi)
称为全概率公式。
根据全概率公式和概率乘法公式,我们可以得到:
-
贝叶斯公式
设 B 1 , B 2 , . . . B_1,B_2,... B1,B2,...是样本空间 $ \Omega$ 的一个划分,则对任一事件 A ( P ( A ) > 0 ) A(P(A)>0) A(P(A)>0) ,有
$P(B_i|A) =\frac {P(B_i A)} {P(A)} = \frac {P(A|B_i )P(B_i)} {\sum_{j=1}^{\infty }P( B_j)P(A|B_j)} ,i=1,2,… $
称上式为贝叶斯公式,称 P ( B i ) ( i = 1 , 2 , . . . ) P(B_i)(i=1,2,...) P(Bi)(i=1,2,...) 为先验概率, P ( B i ∣ A ) ( i = 1 , 2 , . . . ) P(B_i|A)(i=1,2,...) P(Bi∣A)(i=1,2,...)为后验概率。
例子:
在实际中,常取对样本空间 Ω \Omega Ω 的有限划分 B 1 , B 2 , . . . , B n B_1,B_2,...,B_n B1,B2,...,Bn 。 B i B_i Bi 视为导致试验结果 A A A 发生的“原因”,而 P ( B i ) P(B_i) P(Bi) 表示各种“原因”发生的可能性大小,故称为先验概率; P ( B i ∣ A ) P(B_i|A) P(Bi∣A) 则反应当试验产生了结果 A A A 之后,再对各种“原因”概率的新认识,故称为后验概率 。
假定用血清甲胎蛋白法诊断肝癌。用 C C C 表示被检验者有肝癌这一事件,用 A A A 表示被检验者为阳性反应这一事件。当前有肝癌的患者被检测呈阳性反应的概率为0.95。即 P ( A ∣ C ) = 0.95 P(A|C) = 0.95 P(A∣C)=0.95 。当前非肝癌的患者被检测呈阴性反应的概率为0.9。即 P ( A ‾ ∣ C ‾ ) = 0.90 P(\overline {A}|\overline {C}) = 0.90 P(A∣C)=0.90 。若某人群中肝癌患者概率为0.0004,即$P© = 0.0004 $,现在有一人呈阳性反应,求此人确为肝癌患者的概率是多少?
解:
P ( C ∣ A ) = P ( C ) P ( A ∣ C ) P ( C ) P ( A ∣ C ) + P ( C ‾ ) P ( A ∣ C ‾ ) = 0.0004 ∗ 0.95 0.0004 ∗ 0.95 + 0.9996 ∗ 0.1 = 0.0038 P(C|A) = \frac {P(C)P(A|C)} {P(C)P(A|C)+P(\overline {C} )P(A|\overline {C})} =\frac {0.0004*0.95}{0.0004*0.95 + 0.9996*0.1} =0.0038 P(C∣A)=P(C)P(A∣C)+P(C)P(A∣C)P(C)P(A∣C)=0.0004∗0.95+0.9996∗0.10.0004∗0.95=0.0038
二、随机变量
1.随机变量及其分布
-
随机变量定义:
设 E E E 是随机试验, Ω \Omega Ω 是样本空间,如果对于每一个 ω ∈ Ω \omega \in \Omega ω∈Ω 。都有一个确定的实数 X ( ω ) X(\omega) X(ω) 与之对应,若对于任意实 x ∈ R x \in R x∈R , 有 { ω : X ( ω ) < x } ∈ F \{\omega :X(\omega) < x \} \in F {ω:X(ω)<x}∈F ,则称 Ω \Omega Ω 上的单值实函数 X ( ω ) X(\omega) X(ω) 为一个随机变量。
从定义可知随机变量是定义在样本空间 Ω \Omega Ω 上,取值在实数域上的函数。由于它的自变量是随机试验的结果,而随机试验结果的出现具有随机性,因此,随机变量的取值也具有一定的随机性。这是随机变量与普通函数的不同之处。
描述一个随机变量,不仅要说明它能够取那些值,而且还要关心它取这些值的概率。因此,接下来引入随机变量的分布函数的概念。
- 随机变量的分布函数定义:
设
X
X
X 是一个随机变量,对任意的实数
x
x
x ,令
F
(
x
)
=
P
{
X
<
=
x
}
,
x
∈
(
−
∞
,
+
∞
)
F(x) = P \{ X<=x\} ,x \in (- \infty ,+ \infty)
F(x)=P{X<=x},x∈(−∞,+∞)
则称
F
(
x
)
F(x)
F(x) 为随机变量
x
x
x 的分布函数,也称为概率累积函数。
直观上看,分布函数 F ( x ) F(x) F(x) 是一个定义在 ( − ∞ , + ∞ ) (- \infty, + \infty) (−∞,+∞) 上的实值函数, F ( x ) F(x) F(x)在点 x x x 处取值为随机变量 X X X 落在区间 ( − ∞ , + x ] (- \infty, + x] (−∞,+x]上的概率 。分布函数(概率累积函数)很好理解,就是在一个区间范围内概率函数的累加。这个区间就是负无穷到当前节点。
2. 离散型随机变量
如果随机变量 X X X 的全部可能取值只有有限多个或可列无穷多个,则称 X X X 为离散型随机变量。掷骰子的结果就是离散型随机变量。
对于离散型随机变量
X
X
X 可能取值为
x
k
x_k
xk的概率为:
P
{
X
=
x
k
}
=
p
k
,
k
=
1
,
2
,
.
.
.
P \{ X =x_k \} =p_k,k=1,2,...
P{X=xk}=pk,k=1,2,...
则称上式为离散型随机变量
X
X
X 的分布律。
我们可以用下表来表示分布律:
X X X | x 1 x_1 x1 | x 2 x_2 x2 | … | x n x_n xn | … |
---|---|---|---|---|---|
p k p_k pk | p 1 p_1 p1 | p 2 p_2 p2 | … | p n p_n pn | … |
离散型随机变量的分布函数为:
F
(
x
)
=
P
{
X
<
=
x
}
=
∑
x
k
<
=
x
P
{
X
=
x
k
}
=
∑
x
k
<
=
x
P
k
F (x) = P \{ X<=x \} =\sum_{x_k <=x}{ P \{ X=x_k \} } = \sum_{x_k <=x}{ P_k}
F(x)=P{X<=x}=xk<=x∑P{X=xk}=xk<=x∑Pk
3.常见的离散型分布
1.伯努利实验,二项分布
-
定义:
如果一个随机试验只有两种可能的结果 A A A 和 A ‾ \overline A A,并且
P ( A ) = p , P ( A ‾ ) = 1 − p = q P(A) = p,P(\overline A) =1-p=q P(A)=p,P(A)=1−p=q
其中, 0 < p < 1 0<p<1 0<p<1 ,则称此试验为Bernoulli(伯努利)试验. Bernoulli试验独立重复进行 n n n 次,称为 n n n 重伯努利试验。
例子:
从一批产品中检验次品,在其中进行有放回抽样 n n n 次,抽到次品称为“成功”,抽到正品称为“失败“,这就是 n n n 重Bernoulli试验。
设
A
=
{
n
重
伯
努
利
试
验
中
A
出
现
k
次
}
A = \{ n重伯努利试验中A出现k次\}
A={n重伯努利试验中A出现k次}
则
P
(
A
k
)
=
C
n
k
p
k
(
1
−
p
)
n
−
k
,
k
=
0
,
1
,
2
,
.
.
.
n
.
P(A_k) =C^k_np^k(1-p)^{n-k},k=0,1,2,...n.
P(Ak)=Cnkpk(1−p)n−k,k=0,1,2,...n.
这就是著名的二项分布,常记作
B
(
n
,
k
)
B(n,k)
B(n,k)。
解释:一共抽了 n n n 次, k ( k < n ) k(k<n) k(k<n) 次抽中了 A A A ,概率为 p p p ,那么 n − k n-k n−k 次抽中了非 A A A,概率为 1 − p 1-p 1−p 组合的次数就是 C n k C^k_n Cnk 。所以 P ( A k ) = C n k p k ( 1 − p ) n − k , k = 0 , 1 , 2 , . . . n . P(A_k) =C^k_np^k(1-p)^{n-k},k=0,1,2,...n. P(Ak)=Cnkpk(1−p)n−k,k=0,1,2,...n.
- 分布函数:
若随机变量
X
X
X 的分布律为:
P
{
X
=
k
}
=
C
n
k
p
k
(
1
−
p
)
n
−
k
,
k
=
0
,
1
,
2
,
.
.
.
n
.
P \{ X =k \} =C^k_np^k(1-p)^{n-k},k=0,1,2,...n.
P{X=k}=Cnkpk(1−p)n−k,k=0,1,2,...n.
其分布函数为:
F
(
x
)
=
∑
k
=
[
x
]
C
n
k
p
k
(
1
−
p
)
n
−
k
,
k
=
0
,
1
,
2
,
.
.
.
n
.
F(x) = \sum_{k=}^{[x]} {C^k_np^k(1-p)^{n-k}},k=0,1,2,...n.
F(x)=k=∑[x]Cnkpk(1−p)n−k,k=0,1,2,...n.
其中,
[
x
]
[x]
[x] 表示下取整,即不超过
x
x
x 的最大整数。
4.随机变量的数字特征
1.数学期望
- 离散型:设离散型随机变量 X X X 的分布律为 P { X = x i } = p i , i = 1 , 2 , . . . , P \{ X=x_i\} = p_i ,i =1,2,..., P{X=xi}=pi,i=1,2,..., 若级数 ∑ i ∣ x i ∣ p i \sum_{i} {|x_i|p_i} ∑i∣xi∣pi 收敛,则称级数 ∑ i x i p i \sum_{i} {x_ip_i} ∑ixipi 的和为随机变量 X X X 的数学期望。记为 E ( X ) E(X) E(X) ,即:
E ( X ) = ∑ i x i p i E(X) = \sum_{i} {x_ip_i} E(X)=i∑xipi
- 设连续型随机变量
X
X
X 的概率密度函数为
f
(
x
)
f(x)
f(x) ,若积分
∫
−
∞
+
∞
∣
x
∣
f
(
x
)
d
x
\int_{- \infty}^{+ \infty}{|x|f(x)}dx
∫−∞+∞∣x∣f(x)dx 收敛, 称积分
∫
−
∞
+
∞
x
f
(
x
)
d
x
\int_{- \infty}^{+ \infty}{xf(x)}dx
∫−∞+∞xf(x)dx 的值为随机变量
X
X
X 的数学期望,记为
E
(
X
)
E(X)
E(X) ,即:
E ( X ) = ∫ − ∞ + ∞ x f ( x ) d x E(X)= \int_{- \infty}^{+ \infty}{xf(x)}dx E(X)=∫−∞+∞xf(x)dx
E ( X ) E(X) E(X) 又称为均值。
数学期望代表了随机变量取值的平均值,是一个重要的数字特征。数学期望具有如下性质:
- 若 c c c 是常数,则 E ( c ) = c E(c) =c E(c)=c ;
- E ( a X + b Y ) = a E ( X ) + b E ( Y ) E(aX+bY) = aE(X) +bE(Y) E(aX+bY)=aE(X)+bE(Y) , 其中a, b为任意常数;
- 若 X , Y X, Y X,Y 相互独立,则 E ( X Y ) = E ( X ) E ( Y ) E(XY) = E(X)E(Y) E(XY)=E(X)E(Y) 。
2.方差
- 设 X X X 为随机变量,如果 E { [ X − E ( X ) ] 2 } E\{ [X-E(X)]^2\} E{[X−E(X)]2} 存在,则称 E { [ X − E ( X ) ] 2 } E\{ [X-E(X)]^2\} E{[X−E(X)]2} 为 X X X 的方差。记为 V a r ( X ) Var(X) Var(X) , 即:
V a r ( X ) = E { [ X − E ( X ) ] 2 } Var (X) =E\{ [X-E(X)]^2\} Var(X)=E{[X−E(X)]2}
并且称 V a r ( X ) \sqrt{Var(X)} Var(X) 为 X X X 的标准差或均方差。
方差是用来描述随机变量取值相对于均值的离散程度的一个量,也是非常重要的数字特征。方差有如下性质:
- 若 c c c 是常数,则 V a r ( c ) = 0 Var(c) =0 Var(c)=0 ;
- V a r ( a X + b ) = a 2 V a r ( X ) Var(aX+b) = a^2Var(X) Var(aX+b)=a2Var(X) , 其中a, b为任意常数;
- 若 X , Y X, Y X,Y 相互独立,则 V a r ( X + Y ) = V a r ( X ) + V a r ( Y ) Var(X+Y) = Var(X) +Var(Y) Var(X+Y)=Var(X)+Var(Y) 。
3.协方差和相关系数
协方差和相关系数都是描述随机变量 X X X 与随机变量 Y Y Y 之间的线性联系程度的数字量。
-
设 X , Y X, Y X,Y 为两个随机变量,称 E { [ X − E ( X ) ] [ Y − E ( Y ) ] } E\{ [X-E(X)] [Y-E(Y)]\} E{[X−E(X)][Y−E(Y)]} 为 X X X 和 Y Y Y 的协方差,记为 C o v ( X , Y ) Cov(X, Y) Cov(X,Y),即:
C o v ( X , Y ) = E { [ X − E ( X ) ] [ Y − E ( Y ) ] } Cov(X, Y) = E\{ [X-E(X)] [Y-E(Y)]\} Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}
协方差有如下性质:-
C o v ( X , Y ) = C o v ( Y , X ) Cov(X, Y) = Cov(Y, X) Cov(X,Y)=Cov(Y,X) ;
-
C o v ( a X + b , c Y + d ) = a c C o v ( X , Y ) Cov(aX+b,cY+d) =ac Cov( X,Y) Cov(aX+b,cY+d)=acCov(X,Y) ,其中, a , b , c , d a,b,c,d a,b,c,d 为任意常数;
-
C o v ( X 1 + X 2 , Y ) = C o v ( X 1 , Y ) + C o v ( X 2 , Y ) Cov(X_1+X_2,Y) =Cov( X_1,Y) +Cov( X_2,Y) Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y) ;
-
C o v ( X , Y ) = E ( X , Y ) − E ( X ) E ( Y ) Cov(X,Y) =E( X,Y) -E( X)E(Y) Cov(X,Y)=E(X,Y)−E(X)E(Y) ; 当 X , Y X,Y X,Y 相互独立时,有 C o v ( X , Y ) = 0 Cov(X,Y) = 0 Cov(X,Y)=0;
-
∣ C o v ( X , Y ) ∣ < = V a r ( X ) V a r ( Y ) |Cov(X,Y)| <= \sqrt {Var(X)} \sqrt {Var(Y)} ∣Cov(X,Y)∣<=Var(X)Var(Y) ;
-
C o v ( X , X ) = V a r ( X ) Cov(X,X) =Var( X) Cov(X,X)=Var(X) ;
-
-
当 V a r ( X ) > 0 , V a r ( Y ) > 0 \sqrt {Var(X)} >0 ,\sqrt {Var(Y)} >0 Var(X)>0,Var(Y)>0 时,称
ρ ( X , Y ) = C o v ( X , Y ) V a r ( X ) V a r ( Y ) \rho(X,Y) = \frac{Cov(X,Y)}{\sqrt {Var(X)} \sqrt {Var(Y)}} ρ(X,Y)=Var(X)Var(Y)Cov(X,Y)
为 X , Y X,Y X,Y 的相关系数,它是无纲量的量(也就是说没有单位,只是个代数值)。 -
基本上我们都会用相关系数来衡量两个变量之间的相关程度。相关系数在-1到1之间,小于零表示负相关,大于零表示正相关。绝对值 ∣ ρ ( X , Y ) ∣ |\rho(X,Y)| ∣ρ(X,Y)∣ 表示相关度的大小。越接近1,相关度越大。