概率统计01
今天开始跟着Datawhale在学习一遍概率统计的基础知识,希望自己可以坚持下来
有些内容涉及概念性的东西,所以就和讲义统一了
1. 随机事件
个人感觉该部分内容都是比较偏概念性的,但是却是需要深入理解的基础知识
1.1 基本概念释义
首先介绍基本概念,之后按照自己的理解进行举例:
- 随机现象:现实生活中的一个动作或一个事情在一定的条件下,所得到的结果不能预先完全确定,可能是多种结果中的一种,这样的现象叫做随机现象
- 随机试验:使得随机现象得以实现以及观察的全过程成为随机试验,记为 E E E
- 样本空间:随机试验的所有可能结果组成的集合为样本空间,记为 Ω \Omega Ω
- 样本点:试验的每一个可能的结果都是一个样本点,用大写字母 A , B , C A,B,C A,B,C表示
- 必然事件:一定会发生的事件,称为 Ω \Omega Ω
- 不可能事件:一定不会发生的事件,记作空集 ϕ \phi ϕ
举个例子:袋子里面有1-3编号六个球,有放回地随机摸两个球出来,那么:
- 该案例符合随机试验的定义,摸球的过程是一个随机现象
- 样本空间 / 必然事件:
Ω = { ( 1 , 2 ) , ( 1 , 3 ) , ( 2 , 3 ) , ( 1 , 1 ) , ( 2 , 2 ) , ( 3 , 3 ) , ( 2 , 1 ) , ( 3 , 1 ) , ( 3 , 2 ) } \Omega=\{(1,2),(1,3),(2,3),(1,1),(2,2),(3,3),(2,1),(3,1),(3,2)\} Ω={(1,2),(1,3),(2,3),(1,1),(2,2),(3,3),(2,1),(3,1),(3,2)} - 摸两次都为偶数可以看作是一个随机事件 A = { ( 2 , 2 ) } A=\{(2,2)\} A={(2,2)}
- 空集 ϕ \phi ϕ:摸两次得结果都大于5
1.2 概率
1.2.1 定义
随机试验 E E E的样本空间为 Ω \Omega Ω,对于每个事件 A A A,定义一个实数 P ( A ) P(A) P(A)与之对应,若函数 P ( . ) P(.) P(.)满足条件:
- 对每个事件 A A A,均有 0 < P ( A ) < = 1 0<P(A)<=1 0<P(A)<=1;
- P ( Ω ) = 1 P(\Omega)=1 P(Ω)=1;
- 若事件
A
1
,
A
2
,
A
3
,
.
.
.
A_1,A_2,A_3,...
A1,A2,A3,...两两互斥,即对于
i
,
j
=
1
,
2
,
.
.
.
,
i
≠
j
,
A
i
∩
A
j
=
ϕ
i,j=1,2,...,i \neq j ,A_i \cap A_j = \phi
i,j=1,2,...,i=j,Ai∩Aj=ϕ,均有
P ( A 1 ∪ A 2 ∪ . . . ) = P ( A 1 ) + P ( A 2 ) + . . . P(A_1 \cup A_2 \cup ...)=P(A_1) +P(A_2) +... P(A1∪A2∪...)=P(A1)+P(A2)+...
则称 P ( A ) P(A) P(A)为事件 A A A的概率。
1.2.2 主要性质
-
对于任一事件 A A A,均有 P ( A ‾ ) = 1 − P ( A ) P(\overline{A})=1-P(A) P(A)=1−P(A).
-
对于两个事件 A A A和 B B B,若 A ⊂ B A \subset B A⊂B,则有
P ( B − A ) = P ( B ) − P ( A ) , P ( B ) > P ( A ) P(B-A) = P(B) - P(A), P(B) >P(A) P(B−A)=P(B)−P(A),P(B)>P(A) -
对于任意两个事件 A A A和 B B B,有
P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B ) P(A \cup B) = P(A) + P(B) - P(A\cap B) P(A∪B)=P(A)+P(B)−P(A∩B)
下面这张图基本可以对以上内容进行概括:
1.3 古典概型
总结古典概型的三个要素:
- 样本空间中有有限个样本
- 每个样本点的出现是等可能的
- 每次试验有且只有一个样本点发生
例题:40个同学中至少有两个同一天过生日的概率
def factorial(n):
if n == 0:
return 1
else:
return (n * factorial(n - 1))
l = 365
k = 40
p = factorial(l)/(factorial(l - k) * l**k)
print('40个同学中至少有两个人同一天过生日的概率为%.3f' % (1-p))
1.4 条件概率
定义:设 A A A 和 B B B 是两个事件,且 P ( B ) > 0 P(B)>0 P(B)>0,称 P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B) = \frac {P(AB)} {P(B)} P(A∣B)=P(B)P(AB) 为在事件 B B B 发生的条件下,事件 A A A 发生的概率。
1.5 全概率公式和贝叶斯公式
1.5.1 全概率公式
设 B 1 , B 2 , . . . B_1,B_2,... B1,B2,...是样本空间 Ω \Omega Ω 的一个划分, A A A 为任一事件,则
P ( A ) = ∑ i = 1 ∞ P ( B i ) P ( A ∣ B i ) P(A) = \sum_{i=1}^{\infty} {P(B_i)}P(A|B_i) P(A)=∑i=1∞P(Bi)P(A∣Bi)
称为全概率公式。
1.5.2 贝叶斯公式
设
B
1
,
B
2
,
.
.
.
B_1,B_2,...
B1,B2,...是样本空间
Ω
\Omega
Ω 的一个划分,则对任一事件
A
(
P
(
A
)
>
0
)
A(P(A)>0)
A(P(A)>0) ,有
P
(
B
i
∣
A
)
=
P
(
B
i
A
)
P
(
A
)
=
P
(
A
∣
B
i
)
P
(
B
i
)
∑
j
=
1
∞
P
(
B
j
)
P
(
A
∣
B
j
)
,
i
=
1
,
2
,
.
.
.
P(B_i|A) =\frac {P(B_i A)} {P(A)} = \frac {P(A|B_i )P(B_i)} {\sum_{j=1}^{\infty }P( B_j)P(A|B_j)} ,i=1,2,...
P(Bi∣A)=P(A)P(BiA)=∑j=1∞P(Bj)P(A∣Bj)P(A∣Bi)P(Bi),i=1,2,...
称上式为贝叶斯公式,称 P ( B i ) ( i = 1 , 2 , . . . ) P(B_i)(i=1,2,...) P(Bi)(i=1,2,...) 为先验概率, P ( B i ∣ A ) ( i = 1 , 2 , . . . ) P(B_i|A)(i=1,2,...) P(Bi∣A)(i=1,2,...)为后验概率。
个人理解
目前还没有学习过机器学习,但是学习过信号理论中的贝叶斯均衡解
就像讲义里面说的那样,我们现在已知的条件是,
B
i
B_i
Bi的概率,可以看作是实验结果
A
A
A发生的原因,因此显然我们可以通过试验了解到
B
i
B_i
Bi的前提条件下,实验结果发生的概率,我们就可以通过这些数值倒退出在实验结果下原因发生的概率,这是很有实际意义的。
换句话说,我们通过试验结果缩小了对原因判定的范围,使得我们的判断可以被应用在更多场合下
2. 随机变量
2.1. 随机变量及其分布
-
随机变量定义:
设 E E E 是随机试验, Ω \Omega Ω 是样本空间,如果对于每一个 ω ∈ Ω \omega \in \Omega ω∈Ω 。都有一个确定的实数 X ( ω ) X(\omega) X(ω) 与之对应,若对于任意实 x ∈ R x \in R x∈R , 有 { ω : X ( ω ) < x } ∈ F \{\omega :X(\omega) < x \} \in F {ω:X(ω)<x}∈F ,则称 Ω \Omega Ω 上的单值实函数 X ( ω ) X(\omega) X(ω) 为一个随机变量。
从定义可知随机变量是定义在样本空间 Ω \Omega Ω 上,取值在实数域上的函数。由于它的自变量是随机试验的结果,而随机试验结果的出现具有随机性,因此,随机变量的取值也具有一定的随机性。这是随机变量与普通函数的不同之处。
- 随机变量的分布函数定义:
设 X X X 是一个随机变量,对任意的实数 x x x ,令
F ( x ) = P { X < = x } , x ∈ ( − ∞ , + ∞ ) F(x) = P \{ X<=x\} ,x \in (- \infty ,+ \infty) F(x)=P{X<=x},x∈(−∞,+∞)
则称 F ( x ) F(x) F(x) 为随机变量 x x x 的分布函数,也称为概率累积函数。
直观上看,分布函数
F
(
x
)
F(x)
F(x) 是一个定义在
(
−
∞
,
+
∞
)
(- \infty, + \infty)
(−∞,+∞) 上的实值函数,
F
(
x
)
F(x)
F(x)在点
x
x
x 处取值为随机变量
X
X
X 落在区间
(
−
∞
,
+
x
]
(- \infty, + x]
(−∞,+x]上的概率 。分布函数(概率累积函数)很好理解,就是在一个区间范围内概率函数的累加。这个区间就是负无穷到当前节点。
如果随机变量
X
X
X 的全部可能取值只有有限多个或可列无穷多个,则称
X
X
X 为离散型随机变量。掷骰子的结果就是离散型随机变量。
对于离散型随机变量
X
X
X 可能取值为
x
k
x_k
xk的概率为:
P
{
X
=
x
k
}
=
p
k
,
k
=
1
,
2
,
.
.
.
P \{ X =x_k \} =p_k,k=1,2,...
P{X=xk}=pk,k=1,2,...
则称上式为离散型随机变量
X
X
X 的分布律。
离散型随机变量的分布函数为:
F
(
x
)
=
P
{
X
<
=
x
}
=
∑
x
k
<
=
x
P
{
X
=
x
k
}
=
∑
x
k
<
=
x
P
k
F (x) = P \{ X<=x \} =\sum_{x_k<=x}{ P \{ X=x_k \} } = \sum_{x_k <=x}{ P_k}
F(x)=P{X<=x}=xk<=x∑P{X=xk}=xk<=x∑Pk
2.3 伯努利试验/二项分布
- 分布函数:
若随机变量
X
X
X 的分布律为:
P
{
X
=
k
}
=
C
n
k
p
k
(
1
−
p
)
n
−
k
,
k
=
0
,
1
,
2
,
.
.
.
n
.
P \{ X =k \} =C^k_np^k(1-p)^{n-k},k=0,1,2,...n.
P{X=k}=Cnkpk(1−p)n−k,k=0,1,2,...n.
其分布函数为:
F
(
x
)
=
∑
k
=
0
[
x
]
C
n
k
p
k
(
1
−
p
)
n
−
k
,
k
=
0
,
1
,
2
,
.
.
.
n
.
F(x) = \sum_{k=0}^{[x]} {C^k_np^k(1-p)^{n-k}},k=0,1,2,...n.
F(x)=k=0∑[x]Cnkpk(1−p)n−k,k=0,1,2,...n.
其中,
[
x
]
[x]
[x] 表示下取整,即不超过
x
x
x 的最大整数。
2.4 随机变量的数字特征
2.4.1 数学期望
-
离散型:设离散型随机变量 X X X 的分布律为 P { X = x i } = p i , i = 1 , 2 , . . . , P \{ X=x_i\} = p_i ,i =1,2,..., P{X=xi}=pi,i=1,2,..., 若级数 ∑ i ∣ x i ∣ p i \sum_{i} {|x_i|p_i} ∑i∣xi∣pi 收敛,
(收敛指会聚于一点,向某一值靠近,相对于发散)。则称级数 ∑ i x i p i \sum_{i} {x_ip_i} ∑ixipi 的和为随机变量 X X X 的数学期望。记为 E ( X ) E(X) E(X) ,即:
E ( X ) = ∑ i x i p i E(X) = \sum_{i} {x_ip_i} E(X)=i∑xipi
- 设连续型随机变量
X
X
X 的概率密度函数为
f
(
x
)
f(x)
f(x) ,若积分
∫
−
∞
+
∞
∣
x
∣
f
(
x
)
d
x
\int_{- \infty}^{+ \infty}{|x|f(x)}dx
∫−∞+∞∣x∣f(x)dx 收敛, 称积分
∫
−
∞
+
∞
x
f
(
x
)
d
x
\int_{- \infty}^{+ \infty}{xf(x)}dx
∫−∞+∞xf(x)dx 的值为随机变量
X
X
X 的数学期望,记为
E
(
X
)
E(X)
E(X) ,即:
E ( X ) = ∫ − ∞ + ∞ x f ( x ) d x E(X)= \int_{- \infty}^{+ \infty}{xf(x)}dx E(X)=∫−∞+∞xf(x)dx
E ( X ) E(X) E(X) 又称为均值。
数学期望代表了随机变量取值的平均值,是一个重要的数字特征。数学期望具有如下性质:
- 若 c c c 是常数,则 E ( c ) = c E(c) =c E(c)=c ;
- E ( a X + b Y ) = a E ( X ) + b E ( Y ) E(aX+bY) = aE(X) +bE(Y) E(aX+bY)=aE(X)+bE(Y) , 其中a, b为任意常数;
- 若 X , Y X, Y X,Y 相互独立,则 E ( X Y ) = E ( X ) E ( Y ) E(XY) = E(X)E(Y) E(XY)=E(X)E(Y) ; (相互独立就是没有关系,不相互影响,这也可以作为协方差的判断依据)。
2.4.2 方差
- 设 X X X 为随机变量,如果 E { [ X − E ( X ) ] 2 } E\{ [X-E(X)]^2\} E{[X−E(X)]2} 存在,则称 E { [ X − E ( X ) ] 2 } E\{ [X-E(X)]^2\} E{[X−E(X)]2} 为 X X X 的方差。记为 V a r ( X ) Var(X) Var(X) , 即:
V a r ( X ) = E { [ X − E ( X ) ] 2 } Var (X) =E\{ [X-E(X)]^2\} Var(X)=E{[X−E(X)]2}
并且称 V a r ( X ) \sqrt{Var(X)} Var(X) 为 X X X 的标准差或均方差。
方差是用来描述随机变量取值相对于均值的离散程度的一个量,也是非常重要的数字特征。方差有如下性质:
- 若 c c c 是常数,则 V a r ( c ) = 0 Var(c) =0 Var(c)=0 ;
- V a r ( a X + b ) = a 2 E ( X ) Var(aX+b) = a^2E(X) Var(aX+b)=a2E(X) , 其中a, b为任意常数;
- 若 X , Y X, Y X,Y 相互独立,则 V a r ( X + Y ) = V a r ( X ) + V a r ( Y ) Var(X+Y) = Var(X) +Var(Y) Var(X+Y)=Var(X)+Var(Y) 。
2.4.3 协方差以及相关系数
协方差和相关系数都是描述随机变量 X X X 与随机变量 Y Y Y 之间的线性联系程度的数字量。
-
设 X , Y X, Y X,Y 为两个随机变量,称 E { [ X − E ( X ) ] [ Y − E ( Y ) ] } E \{ [X-E(X)] [Y-E(Y)]\} E{[X−E(X)][Y−E(Y)]} 为 X X X 和 Y Y Y 的协方差,记为 C o v ( X , Y ) Cov(X, Y) Cov(X,Y),即:
C o v ( X , Y ) = E { [ X − E ( X ) ] [ Y − E ( Y ) ] } Cov(X, Y) = E\{ [X-E(X)] [Y-E(Y)]\} Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}
协方差有如下性质:-
C o v ( X , Y ) = C o v ( Y , X ) Cov(X, Y) = Cov(Y, X) Cov(X,Y)=Cov(Y,X) ;
-
C o v ( a X + b , c Y + d ) = a c C o v ( X , Y ) Cov(aX+b,cY+d) =ac Cov( X,Y) Cov(aX+b,cY+d)=acCov(X,Y) ,其中, a , b , c , d a,b,c,d a,b,c,d 为任意常数;
-
C o v ( X 1 + X 2 , Y ) = C o v ( X 1 , Y ) + C o v ( X 2 , Y ) Cov(X_1+X_2,Y) =Cov( X_1,Y) +Cov( X_2,Y) Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y) ;
-
C o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) Cov(X,Y) =E( XY) -E(X)E(Y) Cov(X,Y)=E(XY)−E(X)E(Y) ; 当 X , Y X,Y X,Y 相互独立时,有 C o v ( X , Y ) = 0 Cov(X,Y) = 0 Cov(X,Y)=0;
-
∣ C o v ( X , Y ) ∣ = V a r ( X ) V a r ( Y ) |Cov(X,Y)| = \sqrt {Var(X)} \sqrt {Var(Y)} ∣Cov(X,Y)∣=Var(X)Var(Y) ;
-
C o v ( X , X ) = V a r ( X ) Cov(X,X) =Var( X) Cov(X,X)=Var(X) ;
-
-
当 V a r ( X ) > 0 , V a r ( Y ) > 0 \sqrt {Var(X)} >0 ,\sqrt {Var(Y)} >0 Var(X)>0,Var(Y)>0 时,称
ρ ( X , Y ) = C o v ( X , Y ) V a r ( X ) V a r ( Y ) \rho(X,Y) = \frac{Cov(X,Y)}{\sqrt {Var(X)} \sqrt {Var(Y)}} ρ(X,Y)=Var(X)Var(Y)Cov(X,Y)
为 X , Y X,Y X,Y 的相关系数,它是无纲量的量(也就是说没有单位,只是个代数值)。 -
基本上我们都会用相关系数来衡量两个变量之间的相关程度。相关系数在-1到1之间,小于零表示负相关,大于零表示正相关。绝对值 ∣ ρ ( X , Y ) ∣ |\rho(X,Y)| ∣ρ(X,Y)∣ 表示相关度的大小。越接近1,相关度越大。