一、随机事件与随机变量
随机事件
1 定义
随机事件需满足以下三个条件:
- 可以在相同条件下重复进行;
- 结果有多种可能性,并且所有可能结果事先已知;
- 做一次试验究竟哪个结果出现,事先不能确定。
2 随机事件的概率
随机事件的概率主要有以下性质:
1 对于任一事件A,均有 P ( A ˉ ) = 1 − P ( A ) P(\bar{A})=1−P(A) P(Aˉ)=1−P(A).
2 对于两个事件A和B,若 A ⊂ B A⊂B A⊂B,则有
P ( B − A ) = P ( B ) − P ( A ) , P ( B ) > P ( A ) P(B−A)=P(B)−P(A),P(B)>P(A) P(B−A)=P(B)−P(A),P(B)>P(A).
3 对于任意两个事件A和B,有
P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B ) P(A∪B)=P(A)+P(B)−P(A∩B) P(A∪B)=P(A)+P(B)−P(A∩B).
3 古典概型
我们将掷骰子游戏进行推广,设随机事件 E 的样本空间中只有有限个样本点,即 Ω = { ω 1 , ω 2 , . . . , ω n } Ω=\{ω1,ω2,...,ωn\} Ω={ω1,ω2,...,ωn},其中, n 为样本点的总数。每个样本点 ω i ( i = 1 , 2 , . . . , n ) ωi(i=1,2,...,n) ωi(i=1,2,...,n)出现是等可能的,并且每次试验有且仅有一个样本点发生,则称这类现象为古典概型。
例:求 k 个同班同学没有两人生日相同的概率。
解:设
A
A
A= k 个同班同学没有两人生日相同
P
(
A
)
=
C
l
k
k
!
l
k
=
l
!
l
k
(
l
−
k
)
!
,
l
=
365
P(A) = \frac {C^k_lk!} {l^k} = \frac {l!} {l^k(l-k)!}, l=365
P(A)=lkClkk!=lk(l−k)!l!,l=365
Python代码实现,设 k = 40 k=40 k=40
#我们采用函数的递归的方法计算阶乘:
def factorial(n):
if n == 0:
return 1;
else:
return (n*factorial(n-1))
l_fac = factorial(365); #l的阶乘
l_k_fac = factorial(365-40) #l-k的阶乘
l_k_exp = 365**40 #l的k次方
P_B = l_fac /(l_k_fac * l_k_exp) #P(B)
print("事件B的概率为:",P_B)
print("40个同学中至少两个人同一天过生日的概率是:",1 - P_B)
4 条件概率
定义:
设 A 和 B 是两个事件,且
P
(
B
)
>
0
P(B)>0
P(B)>0,称
P
(
A
∣
B
)
=
P
(
A
B
)
P
(
B
)
P(A|B)= \frac {P(AB)} {P(B)}
P(A∣B)=P(B)P(AB)为在事件 B 发生的条件下,事件 A 发生的概率。
可以得到:
P
(
A
B
)
=
P
(
B
∣
A
)
P
(
A
)
=
P
(
A
∣
B
)
P
(
B
)
P(AB)=P(B|A)P(A) =P(A|B)P(B)
P(AB)=P(B∣A)P(A)=P(A∣B)P(B)
5 全概率公式和贝叶斯公式
5.1 全概率公式
设 B 1 , B 2 , . . . B_1,B_2,... B1,B2,...是样本空间 Ω \Omega Ω 的一个划分, A A A 为任一事件,则
P ( A ) = ∑ i = 1 ∞ P ( B i ) P ( A ∣ B i ) P(A) = \sum_{i=1}^{\infty } {P(B_i)}P(A|B_i) P(A)=∑i=1∞P(Bi)P(A∣Bi)
称为全概率公式。
5.2 贝叶斯公式
设
B
1
,
B
2
,
.
.
.
B_1,B_2,...
B1,B2,...是样本空间
Ω
\Omega
Ω 的一个划分,则对任一事件
A
(
P
(
A
)
>
0
)
A(P(A)>0)
A(P(A)>0) ,有
P
(
B
i
∣
A
)
=
P
(
B
i
A
)
P
(
A
)
=
P
(
A
∣
B
i
)
P
(
B
i
)
∑
j
=
1
∞
P
(
B
j
)
P
(
A
∣
B
j
)
,
i
=
1
,
2
,
.
.
.
P(B_i|A) =\frac {P(B_i A)} {P(A)} = \frac {P(A|B_i )P(B_i)} {\sum_{j=1}^{\infty }P( B_j)P(A|B_j)} ,i=1,2,...
P(Bi∣A)=P(A)P(BiA)=∑j=1∞P(Bj)P(A∣Bj)P(A∣Bi)P(Bi),i=1,2,...
称上式为贝叶斯公式,称
P
(
B
i
)
(
i
=
1
,
2
,
.
.
.
)
P(B_i)(i=1,2,...)
P(Bi)(i=1,2,...) 为先验概率,
P
(
B
i
∣
A
)
(
i
=
1
,
2
,
.
.
.
)
P(B_i|A)(i=1,2,...)
P(Bi∣A)(i=1,2,...)为后验概率。
注:贝叶斯公式也是在机器学习中朴素贝叶斯的核心,非常重要!
例:假定用血清甲胎蛋白法诊断肝癌。用 C C C 表示被检验者有肝癌这一事件,用 A A A 表示被检验者为阳性反应这一事件。当前有肝癌的患者被检测呈阳性反应的概率为0.95。即 P ( A ∣ C ) = 0.95 P(A|C) = 0.95 P(A∣C)=0.95 。当前非肝癌的患者被检测呈阴性反应的概率为0.9。即 P ( A ‾ ∣ C ‾ ) = 0.90 P(\overline {A}|\overline {C}) = 0.90 P(A∣C)=0.90 。若某人群中肝癌患者概率为0.0004,即 P ( C ) = 0.0004 P(C) = 0.0004 P(C)=0.0004,现在有一人呈阳性反应,求此人确为肝癌患者的概率是多少?
解:
P
(
A
)
=
P
(
C
)
P
(
A
∣
C
)
+
P
(
C
‾
)
P
(
A
∣
C
‾
)
P(A)= P(C)P(A|C)+P(\overline {C} )P(A|\overline {C})
P(A)=P(C)P(A∣C)+P(C)P(A∣C)
P ( C ∣ A ) = P ( C ) P ( A ∣ C ) P ( A ) = P ( C ) P ( A ∣ C ) P ( C ) P ( A ∣ C ) + P ( C ‾ ) P ( A ∣ C ‾ ) = 0.0004 ∗ 0.95 0.00040.95 + 0.9996 ∗ 0.1 = 0.0038 P(C|A) =\frac {P(C)P(A|C)} {P(A)}=\frac {P(C)P(A|C)} {P(C)P(A|C)+P(\overline {C} )P(A|\overline {C})} =\frac {0.0004*0.95}{0.00040.95 + 0.9996*0.1} =0.0038 P(C∣A)=P(A)P(C)P(A∣C)=P(C)P(A∣C)+P(C)P(A∣C)P(C)P(A∣C)=0.00040.95+0.9996∗0.10.0004∗0.95=0.0038
随机变量
1 定义
设 E E E 是随机试验, Ω \Omega Ω 是样本空间,如果对于每一个 ω ∈ Ω \omega \in \Omega ω∈Ω 。都有一个确定的实数 X ( ω ) X(\omega) X(ω) 与之对应,若对于任意实 x ∈ R x \in R x∈R , 有 ω : X ( ω ) < x ∈ F {\omega :X(\omega) < x } \in F ω:X(ω)<x∈F ,则称 Ω \Omega Ω 上的单值实函数 X ( ω ) X(\omega) X(ω) 为一个随机变量。
• 随机变量的分布函数定义:
设 X X X 是一个随机变量,对任意的实数 x x x ,令 F ( x ) = P { X < = x } , x ∈ ( − ∞ , + ∞ ) F(x) = P \{X<=x\} ,x \in (- \infty ,+ \infty) F(x)=P{X<=x},x∈(−∞,+∞) 则称 F ( x ) F(x) F(x) 为随机变量 x x x 的分布函数,也称为概率累积函数。
2 离散型随机变量和二项分布
2.1 离散型随机变量
如果随机变量
X
X
X 的全部可能取值只有有限多个或可列无穷多个,则称
X
X
X 为离散型随机变量。掷骰子的结果就是离散型随机变量。
我们可以用下表来表示分布律:
X X X | x 1 x_1 x1 | x 2 x_2 x2 | … | x n x_n xn | … |
---|---|---|---|---|---|
p k p_k pk | p 1 p_1 p1 | p 2 p_2 p2 | … | p n p_n pn | … |
离散型随机变量的分布函数为: F ( x ) = P ( X < = x ) = ∑ x k < = x P ( X = x k ) = ∑ x k < = x P k F (x) = P { (X<=x) } =\sum_{x_k <=x}{ P { (X=x_k )} } = \sum_{x_k <=x}{ P_k} F(x)=P(X<=x)=xk<=x∑P(X=xk)=xk<=x∑Pk
2.2 二项分布
从一批产品中检验次品,在其中进行有放回抽样 n n n 次,抽到次品称为“成功”,抽到正品称为“失败“,这就是 n n n 重Bernoulli试验。
设 A = { n 重 伯 努 利 试 验 中 A 出 现 k 次 } A =\{ n重伯努利试验中A出现k次\} A={n重伯努利试验中A出现k次} 则 P ( A k ) = C n k p k ( 1 − p ) n − k , k = 0 , 1 , 2 , . . . n . P(A_k) =C^k_np^k(1-p)^{n-k},k=0,1,2,...n. P(Ak)=Cnkpk(1−p)n−k,k=0,1,2,...n. 这就是著名的二项分布,常记作 B ( n , k ) B(n,k) B(n,k)。
其分布函数为:
F
(
x
)
=
∑
k
=
[
x
]
C
n
k
p
k
(
1
−
p
)
n
−
k
,
k
=
0
,
1
,
2
,
.
.
.
n
.
F(x) = \sum_{k=}^{[x]} {C^k_np^k(1-p)^{n-k}},k=0,1,2,...n.
F(x)=k=∑[x]Cnkpk(1−p)n−k,k=0,1,2,...n. 其中,
[
x
]
[x]
[x] 表示下取整,即不超过
x
x
x 的最大整数。
3 随机变量的数字特征
3.1 期望
离散型: 设离散型随机变量 X X X 的分布律为 P X = x i = p i , i = 1 , 2 , . . . , P { X=x_i} = p_i ,i =1,2,..., PX=xi=pi,i=1,2,..., 若级数 $ \sum_{i} {|x_i|p_i}$ 收敛,
(收敛指会聚于一点,向某一值靠近,相对于发散)。则称级数 ∑ i x i p i \sum_{i} {x_ip_i} ∑ixipi 的和为随机变量 X X X 的数学期望。记为 E ( X ) E(X) E(X) ,即:
E ( X ) = ∑ i x i p i E(X) = \sum_{i} {x_ip_i} E(X)=i∑xipi
连续型:设连续型随机变量
X
X
X 的概率密度函数为
f
(
x
)
f(x)
f(x) ,若积分
∫
−
∞
+
∞
∣
x
∣
f
(
x
)
d
x
\int_{- \infty}^{+ \infty}{|x|f(x)}dx
∫−∞+∞∣x∣f(x)dx 收敛, 称积分
∫
−
∞
+
∞
x
f
(
x
)
d
x
\int_{- \infty}^{+ \infty}{xf(x)}dx
∫−∞+∞xf(x)dx 的值为随机变量
X
X
X 的数学期望,记为
E
(
X
)
E(X)
E(X) ,即:
E
(
X
)
=
∫
−
∞
+
∞
x
f
(
x
)
d
x
E(X)= \int_{- \infty}^{+ \infty}{xf(x)}dx
E(X)=∫−∞+∞xf(x)dx
E
(
X
)
E(X)
E(X) 又称为均值。
数学期望代表了随机变量取值的平均值,是一个重要的数字特征。数学期望具有如下性质:
- 若 c c c 是常数,则 E ( c ) = c E(c) =c E(c)=c ;
- E ( a X + b Y ) = a E ( X ) + b E ( Y ) E(aX+bY) = aE(X) +bE(Y) E(aX+bY)=aE(X)+bE(Y) , 其中a, b为任意常数;
- 若 X , Y X, Y X,Y 相互独立,则 E ( X Y ) = E ( X ) E ( Y ) E(XY) = E(X)E(Y) E(XY)=E(X)E(Y) ; (相互独立就是没有关系,不相互影响)。
3.2 方差
设
X
X
X 为随机变量,如果
E
[
X
−
E
(
X
)
]
2
E{ [X-E(X)]^2}
E[X−E(X)]2 存在,则称
E
[
X
−
E
(
X
)
]
2
E{ [X-E(X)]^2}
E[X−E(X)]2 为
X
X
X 的方差。记为
V
a
r
(
X
)
Var(X)
Var(X) , 即:
V
a
r
(
X
)
=
E
[
X
−
E
(
X
)
]
2
=
E
(
X
2
)
−
[
E
(
X
)
]
2
Var (X) =E{ [X-E(X)]^2} =E(X^2)-[E(X)]^2
Var(X)=E[X−E(X)]2=E(X2)−[E(X)]2
并且称 V a r ( X ) \sqrt{Var(X)} Var(X) 为 X X X 的标准差或均方差。
方差是用来描述随机变量取值相对于均值的离散程度的一个量,也是非常重要的数字特征。方差有如下性质:
- 若 c c c 是常数,则 V a r ( c ) = 0 Var(c) =0 Var(c)=0 ;
- V a r ( a X + b ) = a 2 V a r ( X ) Var(aX+b) = a^2Var(X) Var(aX+b)=a2Var(X) , 其中a, b为任意常数;
- 若 X , Y X, Y X,Y 相互独立,则 V a r ( X + Y ) = V a r ( X ) + V a r ( Y ) Var(X+Y) = Var(X) +Var(Y) Var(X+Y)=Var(X)+Var(Y) 。
3.3 协方差
协方差和相关系数都是描述随机变量 X X X 与随机变量 Y Y Y 之间的线性联系程度的数字量。
设 X , Y X, Y X,Y 为两个随机变量,称 E [ X − E ( X ) ] [ Y − E ( Y ) ] E{ [X-E(X)] [Y-E(Y)]} E[X−E(X)][Y−E(Y)] 为 X X X 和 Y Y Y 的协方差,记为 C o v ( X , Y ) Cov(X, Y) Cov(X,Y),即: C o v ( X , Y ) = E [ X − E ( X ) ] [ Y − E ( Y ) ] Cov(X, Y) = E{ [X-E(X)] [Y-E(Y)]} Cov(X,Y)=E[X−E(X)][Y−E(Y)] 协方差有如下性质:
C o v ( X , Y ) = C o v ( Y , X ) Cov(X, Y) = Cov(Y, X) Cov(X,Y)=Cov(Y,X) ;
C o v ( a X + b , c Y + d ) = a c C o v ( X , Y ) Cov(aX+b,cY+d) =ac Cov( X,Y) Cov(aX+b,cY+d)=acCov(X,Y) ,其中, a , b , c , d a,b,c,d a,b,c,d 为任意常数;
C o v ( X 1 + X 2 , Y ) = C o v ( X 1 , Y ) + C o v ( X 2 , Y ) Cov(X_1+X_2,Y) =Cov( X_1,Y) +Cov( X_2,Y) Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y) ;
C o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) Cov(X,Y) =E( XY) -E( X)E(Y) Cov(X,Y)=E(XY)−E(X)E(Y) ; 当 X , Y X,Y X,Y 相互独立时,有 C o v ( X , Y ) = 0 Cov(X,Y) = 0 Cov(X,Y)=0;
∣ C o v ( X , Y ) ∣ < = V a r ( X ) V a r ( Y ) |Cov(X,Y)| <= \sqrt {Var(X)} \sqrt {Var(Y)} ∣Cov(X,Y)∣<=Var(X)Var(Y) ;
C o v ( X , X ) = V a r ( X ) Cov(X,X) =Var( X) Cov(X,X)=Var(X) ;
当 V a r ( X ) > 0 , V a r ( Y ) > 0 \sqrt {Var(X)} >0 ,\sqrt {Var(Y)} >0 Var(X)>0,Var(Y)>0 时,称 ρ ( X , Y ) = C o v ( X , Y ) V a r ( X ) V a r ( Y ) \rho(X,Y) = \frac{Cov(X,Y)}{\sqrt {Var(X)} \sqrt {Var(Y)}} ρ(X,Y)=Var(X)Var(Y)Cov(X,Y) 为 X , Y X,Y X,Y 的相关系数,它是无纲量的量(也就是说没有单位,只是个代数值)。
基本上我们都会用相关系数来衡量两个变量之间的相关程度。相关系数在-1到1之间,小于零表示负相关,大于零表示正相关。绝对值 ∣ ρ ( X , Y ) ∣ |\rho(X,Y)| ∣ρ(X,Y)∣ 表示相关度的大小。越接近1,相关度越大。