文章目录
A事件发生的概率,记为 P ( A ) P(A) P(A)或 P r ( A ) Pr(A) Pr(A)。
1. 联合概率、条件概率、边缘概率
1.1 联合概率 joint probability
联合概率:指两个事件A,B同时发生的概率。记为 P ( A , B ) P(A,B) P(A,B),或 P ( A B ) P(AB) P(AB),或 P ( A ∩ B ) P(A\cap B) P(A∩B)。
当A,B相互独立时,有 P ( A B ) = P ( A ) P ( B ) P(AB)=P(A)P(B) P(AB)=P(A)P(B)
1.2 条件概率 conditional probability
条件概率:B发生的前提下,A发生的概率。记为
P
(
A
∣
B
)
P(A|B)
P(A∣B)。
条件概率公式:
P
(
A
∣
B
)
=
P
(
A
B
)
P
(
B
)
P(A|B)=\frac{P(AB)}{P(B)}
P(A∣B)=P(B)P(AB)
当A,B相互独立时,
P
(
A
∣
B
)
=
P
(
A
)
P(A|B)=P(A)
P(A∣B)=P(A),即B发不发生,不影响A。
乘法公式:
P
(
A
B
)
=
P
(
A
∣
B
)
P
(
B
)
P(AB)=P(A|B)P(B)
P(AB)=P(A∣B)P(B)
1.3 边缘概率 marginal probability
边缘概率:指事件A发生的概率。通常可以用全概率公式(见后面解释)来表示:
P
(
A
)
=
∑
i
P
(
A
∣
B
i
)
P
(
B
i
)
P(A)=\sum_iP(A|B_i)P(B_i)
P(A)=i∑P(A∣Bi)P(Bi)
完备事件组
设 S S S为试验 E E E的样本空间, B 1 , B 2 , ⋯ , B n B_1,B_2,\cdots,B_n B1,B2,⋯,Bn为 E E E的一组事件。若
- B i ∩ B j = ∅ ( i ≠ j ) B_i\cap B_j=\empty (i\neq j ) Bi∩Bj=∅(i=j);
- B 1 ∪ B 2 ∪ ⋯ ∪ B n = S B_1\cup B_2\cup\cdots \cup B_n=S B1∪B2∪⋯∪Bn=S
则称 B 1 , B 2 , ⋯ , B n B_1,B_2,\cdots,B_n B1,B2,⋯,Bn为 E E E为样本空间 S S S的一个完备事件组(划分)。
全概率定理
{
B
i
}
\{B_i\}
{Bi}为一完备事件组,则对该样本空间中的任意事件A有全概率公式:
P
(
A
)
=
∑
i
P
(
A
∩
B
i
)
=
∑
i
P
(
A
∣
B
i
)
P
(
B
i
)
P(A)=\sum_{i}P(A\cap B_i)=\sum_{i}P(A|B_i)P(B_i)
P(A)=i∑P(A∩Bi)=i∑P(A∣Bi)P(Bi)
全概率公式的作用:把一个问题分解成多个可能更简单的问题来解决。
贝叶斯公式
是一个求条件概率的公式。
P
(
A
∣
B
)
=
P
(
A
B
)
P
(
B
)
=
乘法公式替换
全概率公式替换
=
P
(
B
∣
A
)
P
(
A
)
∑
A
i
P
(
B
∣
A
i
)
P
(
A
i
)
P(A|B)=\frac{P(AB)}{P(B)}=\frac{乘法公式替换}{全概率公式替换}=\frac{P(B|A)P(A)}{\sum_{A_i}P(B|A_i)P(A_i)}
P(A∣B)=P(B)P(AB)=全概率公式替换乘法公式替换=∑AiP(B∣Ai)P(Ai)P(B∣A)P(A)
2. 常见函数概念
2.1 概念解释
-
PDF:常记为 f X ( t ) f_X(t) fX(t)。概率密度函数(probability density function), 在数学中,连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。
常见的连续随机变量分布的PDF函数:均匀分布,指数分布,Gamma分布和正态分布等。 -
PMF :也记为 f X ( t ) f_X(t) fX(t)。概率质量函数(probability mass function), 在概率论中,概率质量函数是离散随机变量在各特定取值上的概率。
常见的离散随机变量分布的PMF函数:伯努利分布,二项分布,泊松分布。 -
CDF : 记为 F X ( t ) F_X(t) FX(t)。累积分布函数 (cumulative distribution function),又叫分布函数(distribution function),是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。
不管是什么类型(连续/离散/其他)的随机变量,都可以定义它的累积分布函数。
2.2 数学表示
PDF:如果
X
X
X是连续型随机变量,概率密度函数PDF定义为
f
X
(
t
)
f_X(t)
fX(t),用PDF在某一区间上的积分来刻画随机变量落在这个区间中的概率:
P
r
(
a
≤
X
≤
b
)
=
∫
a
b
f
X
(
t
)
d
t
Pr(a \leq X \leq b )=\int_{a}^{b}f_X(t)dt
Pr(a≤X≤b)=∫abfX(t)dt
PMF:如果
X
X
X是离散型随机变量,则 概率质量函数PMF
f
X
(
t
)
f_X(t)
fX(t)为:
f
X
(
t
i
)
=
P
r
(
X
=
t
i
)
,即
X
为
t
i
的概率
f_X(t_i)=Pr(X=t_i),即X为t_i的概率
fX(ti)=Pr(X=ti),即X为ti的概率
CDF:累积分布函数
F
X
(
t
)
=
P
r
(
X
≤
t
)
=
{
∫
−
∞
t
f
X
(
x
)
d
x
,连续型
∑
x
i
≤
t
P
r
(
X
=
x
i
)
=
∑
x
i
≤
t
f
X
(
x
i
)
,离散型
F_X(t)=Pr(X\leq t)= \begin{cases} \int_{-\infty}^{t}f_X(x)dx,连续型\\ \sum\limits_{x_i\leq t}Pr(X=x_i)=\sum\limits_{x_i\leq t}f_X(x_i), 离散型 \end{cases}
FX(t)=Pr(X≤t)=⎩
⎨
⎧∫−∞tfX(x)dx,连续型xi≤t∑Pr(X=xi)=xi≤t∑fX(xi),离散型
说明:
- PDF的取值本身不是概率,它是一种趋势(密度)只有对连续随机变量的取值进行积分后才是概率,也就是说对于连续值确定它在某一点的概率是没有意义的;
- PMF的取值本身代表该值的概率。
参考:
https://blog.csdn.net/Anne033/article/details/114327608
https://blog.csdn.net/lanchunhui/article/details/52965391
3. 期望和方差的性质
3.1 期望
- Z = g ( X , Y ) , E ( Z ) = ∑ i n ∑ j m g ( x i , y j ) p i j Z=g(X,Y), E(Z)=\sum_i^n\sum_j^mg(x_i,y_j)p_{ij} Z=g(X,Y),E(Z)=∑in∑jmg(xi,yj)pij
- E ( c ) = c , c 为常数 E(c)=c,c为常数 E(c)=c,c为常数
- E ( c ) = c , c 为常数 E(c)=c,c为常数 E(c)=c,c为常数
- E ( c X ) = c E ( X ) E(cX)=cE(X) E(cX)=cE(X)
- E ( X + Y ) = X + Y E(X+Y)=X+Y E(X+Y)=X+Y
- E ( X Y ) = E ( X ) E ( Y ) , X 和 Y 相互独立 E(XY)=E(X)E(Y),X和Y相互独立 E(XY)=E(X)E(Y),X和Y相互独立
- E ( E ( X ) ) = E ( X ) E(E(X))=E(X) E(E(X))=E(X)
3.2 方差
方差(英語:variance)描述的是一个随机变量的离散程度,即一组数字与其平均值之间的距离的度量,是随机变量与其总体均值或样本均值的离差的平方的期望值。
- 方差定义: V a r ( X ) = E ( ( X − E ( X ) ) 2 ) = E ( X 2 ) − E ( X ) 2 Var(X)=E((X-E(X))^2)=E(X^2)-E(X)^2 Var(X)=E((X−E(X))2)=E(X2)−E(X)2
- V a r ( X ) ≥ 0 Var(X)\geq 0 Var(X)≥0
- V a r ( a ) = 0 , a 为常数 Var(a)= 0,a为常数 Var(a)=0,a为常数
- V a r ( X + a ) = V a r ( X ) Var(X+a)=Var(X) Var(X+a)=Var(X)
- V a r ( a X ) = a 2 V a r ( X ) Var(aX)=a^2Var(X) Var(aX)=a2Var(X)
- V a r ( a X + b Y ) = a 2 V a r ( X ) + b 2 V a r ( Y ) + 2 a b C o v ( X , Y ) Var(aX+bY)=a^2Var(X)+b^2Var(Y)+2abCov(X,Y) Var(aX+bY)=a2Var(X)+b2Var(Y)+2abCov(X,Y)
- 特例: V a r ( X − Y ) = V a r ( X ) + V a r ( Y ) − 2 C o v ( X , Y ) Var(X-Y)=Var(X)+Var(Y)-2Cov(X,Y) Var(X−Y)=Var(X)+Var(Y)−2Cov(X,Y)
- 通用形式: V a r ( ∑ i = 1 n X i ) = ∑ i , j = 1 n C o v ( X i , X j ) = ∑ i = 1 n V a r ( X i ) + ∑ i ≠ j , 1 n C o v ( X i , X j ) Var(\sum_{i=1}^nX_i)=\sum_{i,j=1}^nCov(X_i,X_j)=\sum_{i=1}^nVar(X_i)+\sum_{i\neq j,1}^nCov(X_i,X_j) Var(∑i=1nXi)=∑i,j=1nCov(Xi,Xj)=∑i=1nVar(Xi)+∑i=j,1nCov(Xi,Xj)
3.3 协方差
协方差(英语:Covariance),在概率论与统计学中用于衡量两个随机变量的联合变化程度。
定义,X,Y为两个随机变量,X,Y的协方差为:
C
o
v
(
X
,
Y
)
=
E
(
(
X
−
E
(
X
)
)
(
Y
−
E
(
Y
)
)
)
=
E
(
X
Y
)
−
E
(
X
)
E
(
Y
)
Cov(X,Y)=E({\color{red}(X-E(X))}{\color{blue}(Y-E(Y))})=E(XY)-E(X)E(Y )
Cov(X,Y)=E((X−E(X))(Y−E(Y)))=E(XY)−E(X)E(Y)
性质:
- 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
- 若X,Y相互独立,则 C o v ( X , Y ) = 0 Cov(X,Y)=0 Cov(X,Y)=0。反过来不一定成立,但如果 C o v ( X , Y ) = 0 Cov(X,Y)=0 Cov(X,Y)=0,则说明X,Y线性无关
- C o v ( X , X ) = V a r ( X ) Cov(X,X)=Var(X) Cov(X,X)=Var(X)
- C o v ( X , Y ) = C o v ( Y , X ) Cov(X,Y)=Cov(Y,X) Cov(X,Y)=Cov(Y,X)
- C o v ( a X , b Y ) = a b C o v ( X , Y ) Cov(aX,bY)=abCov(X,Y) Cov(aX,bY)=abCov(X,Y)
- C o v ( ∑ i = 1 n X i , ∑ j = 1 m Y j ) = ∑ i = 1 n ∑ j = 1 m C o v ( X i , Y j ) Cov(\sum_{i=1}^nX_i,\sum_{j=1}^mY_j)=\sum_{i=1}^n\sum_{j=1}^mCov(X_i,Y_j) Cov(∑i=1nXi,∑j=1mYj)=∑i=1n∑j=1mCov(Xi,Yj)
3.4 协方差矩阵
之前X,Y都是1维标量,这里,X是由n个随机变量组成的列向量,Y由m个:
X
=
[
x
1
x
2
⋯
x
n
]
,
Y
=
[
y
1
y
2
⋯
y
m
]
,
E
(
X
)
=
[
E
(
x
1
)
E
(
x
2
)
⋯
E
(
x
n
)
]
X=\left[ \begin{matrix} x_1 \\ x_2 \\ \cdots \\ x_n \end{matrix} \right],Y=\left[ \begin{matrix} y_1 \\ y_2 \\ \cdots \\ y_m \end{matrix} \right],E(X)=\left[ \begin{matrix} E(x_1) \\ E(x_2) \\ \cdots \\ E(x_n) \end{matrix} \right]
X=⎣
⎡x1x2⋯xn⎦
⎤,Y=⎣
⎡y1y2⋯ym⎦
⎤,E(X)=⎣
⎡E(x1)E(x2)⋯E(xn)⎦
⎤
协方差矩阵由两个定义:
- 协方差称之为随机向量X的方差(Variance of random vector X):
Σ = V a r ( X ) = C o v ( X , X ) = E ( ( X − E ( X ) ) ( X − E ( X ) ) T ) \Sigma=Var(X)=Cov(X,X)=E((X-E(X))(X-E(X))^T) Σ=Var(X)=Cov(X,X)=E((X−E(X))(X−E(X))T) - 两个随机向量X,Y之间的协方差:
C o v ( X , Y ) = E ( ( X − E ( X ) ) ( Y − E ( Y ) ) T ) Cov(X,Y)=E((X-E(X))(Y-E(Y))^T) Cov(X,Y)=E((X−E(X))(Y−E(Y))T)
两种定义都有,其第(i,j)位置的值为:
Σ i j = C o v ( x i , y j ) = E ( ( x i − E ( x i ) ) ( y j − E ( y j ) ) ) \Sigma_{ij}=Cov(x_i,y_j)=E({\color{red}(x_i-E(x_i))}{\color{blue}(y_j-E(y_j))}) Σij=Cov(xi,yj)=E((xi−E(xi))(yj−E(yj)))
令 μ i = E ( x i ) , μ = E ( X ) \mu_i=E(x_i), \mu=E(X) μi=E(xi),μ=E(X),则有
Σ = [ E ( ( x 1 − μ 1 ) ) ( x 1 − μ 1 ) E ( ( x 1 − μ 1 ) ) ( x 2 − μ 2 ) ⋯ E ( ( x 1 − μ 1 ) ) ( x n − μ n ) E ( ( x 2 − μ 2 ) ) ( x 1 − μ 1 ) E ( ( x 2 − μ 2 ) ) ( x 2 − μ 2 ) ⋯ E ( ( x 2 − μ 2 ) ) ( x n − μ n ) ⋮ ⋮ ⋱ ⋮ E ( ( x n − μ n ) ) ( x 1 − μ 1 ) E ( ( x n − μ n ) ) ( x 2 − μ 2 ) ⋯ E ( ( x n − μ n ) ) ( x n − μ n ) ] \Sigma= \left[ \begin{matrix} E((x_1-\mu_1))(x_1-\mu_1) & E((x_1-\mu_1))(x_2-\mu_2) & \cdots & E((x_1-\mu_1))(x_n-\mu_n) \\ E((x_2-\mu_2))(x_1-\mu_1) & E((x_2-\mu_2))(x_2-\mu_2) & \cdots & E((x_2-\mu_2))(x_n-\mu_n) \\ \vdots & \vdots & \ddots & \vdots \\ E((x_n-\mu_n))(x_1-\mu_1) & E((x_n-\mu_n))(x_2-\mu_2) & \cdots &E((x_n-\mu_n))(x_n-\mu_n) \end{matrix} \right] Σ=⎣ ⎡E((x1−μ1))(x1−μ1)E((x2−μ2))(x1−μ1)⋮E((xn−μn))(x1−μ1)E((x1−μ1))(x2−μ2)E((x2−μ2))(x2−μ2)⋮E((xn−μn))(x2−μ2)⋯⋯⋱⋯E((x1−μ1))(xn−μn)E((x2−μ2))(xn−μn)⋮E((xn−μn))(xn−μn)⎦ ⎤
性质:
A , B 为 m × n 维矩阵 , a 为 n × 1 维列向量: A,B为m\times n维矩阵,a为n\times 1维列向量: A,B为m×n维矩阵,a为n×1维列向量:
- Σ = E ( X X T ) − μ μ T \Sigma=E(XX^T)-\mu\mu^T Σ=E(XXT)−μμT
- Σ \Sigma Σ是半正定的对称矩阵
- Σ ≥ 0 , Σ = Σ T \Sigma\geq0,\Sigma=\Sigma^T Σ≥0,Σ=ΣT
- V a r ( a T X ) = a T V a r ( X ) a Var(a^TX)=a^TVar(X)a Var(aTX)=aTVar(X)a
- V a r ( A X + a ) = A V a r ( X ) A T Var(AX+a)=AVar(X)A^T Var(AX+a)=AVar(X)AT
- C o v ( X , Y ) = C o v ( Y , X ) T Cov(X,Y)=Cov(Y,X)^T Cov(X,Y)=Cov(Y,X)T
- C o v ( X 1 + X 2 , Y ) = C o v ( X 1 , Y ) + C o v ( X 2 , Y ) Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y) Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)
- 若n=m, C o v ( X + Y ) = V a r ( X ) + C o v ( X , Y ) + C o v ( Y , X ) + V a r ( Y ) Cov(X+Y)=Var(X)+Cov(X,Y)+Cov(Y,X)+Var(Y) Cov(X+Y)=Var(X)+Cov(X,Y)+Cov(Y,X)+Var(Y)
- C o v ( A X , B X ) = A C o v ( X , X ) B T Cov(AX,BX)=ACov(X,X)B^T Cov(AX,BX)=ACov(X,X)BT
- 若X,Y相互独立, C o v ( X , Y ) = 0 Cov(X,Y)=0 Cov(X,Y)=0
参考:
https://blog.csdn.net/sodacoco/article/details/89041910
https://zh.m.wikipedia.org/zh/%E6%96%B9%E5%B7%AE
https://zh.m.wikipedia.org/wiki/%E5%8D%8F%E6%96%B9%E5%B7%AE
https://zh.m.wikipedia.org/wiki/%E5%8D%8F%E6%96%B9%E5%B7%AE%E7%9F%A9%E9%98%B5