机器学习相关 概率论重点笔记


A事件发生的概率,记为 P ( A ) P(A) P(A) P r ( A ) Pr(A) Pr(A)

1. 联合概率、条件概率、边缘概率

1.1 联合概率 joint probability

联合概率:指两个事件A,B同时发生的概率。记为 P ( A , B ) P(A,B) P(A,B),或 P ( A B ) P(AB) P(AB),或 P ( A ∩ B ) P(A\cap B) P(AB)

当A,B相互独立时,有 P ( A B ) = P ( A ) P ( B ) P(AB)=P(A)P(B) P(AB)=P(A)P(B)

1.2 条件概率 conditional probability

条件概率:B发生的前提下,A发生的概率。记为 P ( A ∣ B ) P(A|B) P(AB)
条件概率公式 P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)=\frac{P(AB)}{P(B)} P(AB)=P(B)P(AB)
当A,B相互独立时, P ( A ∣ B ) = P ( A ) P(A|B)=P(A) P(AB)=P(A),即B发不发生,不影响A。
乘法公式 P ( A B ) = P ( A ∣ B ) P ( B ) P(AB)=P(A|B)P(B) P(AB)=P(AB)P(B)

1.3 边缘概率 marginal probability

边缘概率:指事件A发生的概率。通常可以用全概率公式(见后面解释)来表示:
P ( A ) = ∑ i P ( A ∣ B i ) P ( B i ) P(A)=\sum_iP(A|B_i)P(B_i) P(A)=iP(ABi)P(Bi)

完备事件组

S S S为试验 E E E的样本空间, B 1 , B 2 , ⋯   , B n B_1,B_2,\cdots,B_n B1,B2,,Bn E E E的一组事件。若

  • B i ∩ B j = ∅ ( i ≠ j ) B_i\cap B_j=\empty (i\neq j ) BiBj=i=j
  • B 1 ∪ B 2 ∪ ⋯ ∪ B n = S B_1\cup B_2\cup\cdots \cup B_n=S B1B2Bn=S

则称 B 1 , B 2 , ⋯   , B n B_1,B_2,\cdots,B_n B1,B2,,Bn E E E为样本空间 S S S的一个完备事件组(划分)。

全概率定理

{ B i } \{B_i\} {Bi}为一完备事件组,则对该样本空间中的任意事件A有全概率公式:
P ( A ) = ∑ i P ( A ∩ B i ) = ∑ i P ( A ∣ B i ) P ( B i ) P(A)=\sum_{i}P(A\cap B_i)=\sum_{i}P(A|B_i)P(B_i) P(A)=iP(ABi)=iP(ABi)P(Bi)
全概率公式的作用:把一个问题分解成多个可能更简单的问题来解决。

贝叶斯公式

是一个求条件概率的公式。
P ( A ∣ B ) = P ( A B ) P ( B ) = 乘法公式替换 全概率公式替换 = P ( B ∣ A ) P ( A ) ∑ A i P ( B ∣ A i ) P ( A i ) P(A|B)=\frac{P(AB)}{P(B)}=\frac{乘法公式替换}{全概率公式替换}=\frac{P(B|A)P(A)}{\sum_{A_i}P(B|A_i)P(A_i)} P(AB)=P(B)P(AB)=全概率公式替换乘法公式替换=AiP(BAi)P(Ai)P(BA)P(A)

2. 常见函数概念

2.1 概念解释
  • PDF:常记为 f X ( t ) f_X(t) fX(t)。概率密度函数(probability density function), 在数学中,连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。
    常见的连续随机变量分布的PDF函数:均匀分布,指数分布,Gamma分布和正态分布等。

  • PMF :也记为 f X ( t ) f_X(t) fX(t)。概率质量函数(probability mass function), 在概率论中,概率质量函数是离散随机变量在各特定取值上的概率。
    常见的离散随机变量分布的PMF函数:伯努利分布,二项分布,泊松分布。

  • CDF : 记为 F X ( t ) F_X(t) FX(t)。累积分布函数 (cumulative distribution function),又叫分布函数(distribution function),是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。
    不管是什么类型(连续/离散/其他)的随机变量,都可以定义它的累积分布函数。

2.2 数学表示

PDF:如果 X X X是连续型随机变量,概率密度函数PDF定义为 f X ( t ) f_X(t) fX(t),用PDF在某一区间上的积分来刻画随机变量落在这个区间中的概率:
P r ( a ≤ X ≤ b ) = ∫ a b f X ( t ) d t Pr(a \leq X \leq b )=\int_{a}^{b}f_X(t)dt Pr(aXb)=abfX(t)dt

PMF:如果 X X X是离散型随机变量,则 概率质量函数PMF f X ( t ) f_X(t) fX(t)为:
f X ( t i ) = P r ( X = t i ) ,即 X 为 t i 的概率 f_X(t_i)=Pr(X=t_i),即X为t_i的概率 fX(ti)=Pr(X=ti),即Xti的概率
CDF:累积分布函数
F X ( t ) = P r ( X ≤ t ) = { ∫ − ∞ t f X ( x ) d x ,连续型 ∑ x i ≤ t P r ( X = x i ) = ∑ x i ≤ t f X ( x i ) ,离散型 F_X(t)=Pr(X\leq t)= \begin{cases} \int_{-\infty}^{t}f_X(x)dx,连续型\\ \sum\limits_{x_i\leq t}Pr(X=x_i)=\sum\limits_{x_i\leq t}f_X(x_i), 离散型 \end{cases} FX(t)=Pr(Xt)= tfX(x)dx,连续型xitPr(X=xi)=xitfX(xi),离散型
说明:

  • PDF的取值本身不是概率,它是一种趋势(密度)只有对连续随机变量的取值进行积分后才是概率,也就是说对于连续值确定它在某一点的概率是没有意义的;
  • PMF的取值本身代表该值的概率。

参考:
https://blog.csdn.net/Anne033/article/details/114327608
https://blog.csdn.net/lanchunhui/article/details/52965391

3. 期望和方差的性质

3.1 期望
  1. Z = g ( X , Y ) , E ( Z ) = ∑ i n ∑ j m g ( x i , y j ) p i j Z=g(X,Y), E(Z)=\sum_i^n\sum_j^mg(x_i,y_j)p_{ij} Z=g(X,Y),E(Z)=injmg(xi,yj)pij
  2. E ( c ) = c , c 为常数 E(c)=c,c为常数 E(c)=cc为常数
  3. E ( c ) = c , c 为常数 E(c)=c,c为常数 E(c)=cc为常数
  4. E ( c X ) = c E ( X ) E(cX)=cE(X) E(cX)=cE(X)
  5. E ( X + Y ) = X + Y E(X+Y)=X+Y E(X+Y)=X+Y
  6. E ( X Y ) = E ( X ) E ( Y ) , X 和 Y 相互独立 E(XY)=E(X)E(Y),X和Y相互独立 E(XY)=E(X)E(Y)XY相互独立
  7. E ( E ( X ) ) = E ( X ) E(E(X))=E(X) E(E(X))=E(X)
3.2 方差

方差(英語:variance)描述的是一个随机变量的离散程度,即一组数字与其平均值之间的距离的度量,是随机变量与其总体均值或样本均值的离差的平方的期望值。

  1. 方差定义: V a r ( X ) = E ( ( X − E ( X ) ) 2 ) = E ( X 2 ) − E ( X ) 2 Var(X)=E((X-E(X))^2)=E(X^2)-E(X)^2 Var(X)=E((XE(X))2)=E(X2)E(X)2
  2. V a r ( X ) ≥ 0 Var(X)\geq 0 Var(X)0
  3. V a r ( a ) = 0 , a 为常数 Var(a)= 0,a为常数 Var(a)=0a为常数
  4. V a r ( X + a ) = V a r ( X ) Var(X+a)=Var(X) Var(X+a)=Var(X)
  5. V a r ( a X ) = a 2 V a r ( X ) Var(aX)=a^2Var(X) Var(aX)=a2Var(X)
  6. V a r ( a X + b Y ) = a 2 V a r ( X ) + b 2 V a r ( Y ) + 2 a b C o v ( X , Y ) Var(aX+bY)=a^2Var(X)+b^2Var(Y)+2abCov(X,Y) Var(aX+bY)=a2Var(X)+b2Var(Y)+2abCov(X,Y)
  7. 特例: V a r ( X − Y ) = V a r ( X ) + V a r ( Y ) − 2 C o v ( X , Y ) Var(X-Y)=Var(X)+Var(Y)-2Cov(X,Y) Var(XY)=Var(X)+Var(Y)2Cov(X,Y)
  8. 通用形式: V a r ( ∑ i = 1 n X i ) = ∑ i , j = 1 n C o v ( X i , X j ) = ∑ i = 1 n V a r ( X i ) + ∑ i ≠ j , 1 n C o v ( X i , X j ) Var(\sum_{i=1}^nX_i)=\sum_{i,j=1}^nCov(X_i,X_j)=\sum_{i=1}^nVar(X_i)+\sum_{i\neq j,1}^nCov(X_i,X_j) Var(i=1nXi)=i,j=1nCov(Xi,Xj)=i=1nVar(Xi)+i=j,1nCov(Xi,Xj)
3.3 协方差

协方差(英语:Covariance),在概率论与统计学中用于衡量两个随机变量的联合变化程度。
定义,X,Y为两个随机变量,X,Y的协方差为:
C o v ( X , Y ) = E ( ( X − E ( X ) ) ( Y − E ( Y ) ) ) = E ( X Y ) − E ( X ) E ( Y ) Cov(X,Y)=E({\color{red}(X-E(X))}{\color{blue}(Y-E(Y))})=E(XY)-E(X)E(Y ) Cov(X,Y)=E((XE(X))(YE(Y)))=E(XY)E(X)E(Y)

性质:

  1. 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
    在这里插入图片描述
  2. 若X,Y相互独立,则 C o v ( X , Y ) = 0 Cov(X,Y)=0 Cov(X,Y)=0。反过来不一定成立,但如果 C o v ( X , Y ) = 0 Cov(X,Y)=0 Cov(X,Y)=0,则说明X,Y线性无关
  3. C o v ( X , X ) = V a r ( X ) Cov(X,X)=Var(X) Cov(X,X)=Var(X)
  4. C o v ( X , Y ) = C o v ( Y , X ) Cov(X,Y)=Cov(Y,X) Cov(X,Y)=Cov(Y,X)
  5. C o v ( a X , b Y ) = a b C o v ( X , Y ) Cov(aX,bY)=abCov(X,Y) Cov(aX,bY)=abCov(X,Y)
  6. C o v ( ∑ i = 1 n X i , ∑ j = 1 m Y j ) = ∑ i = 1 n ∑ j = 1 m C o v ( X i , Y j ) Cov(\sum_{i=1}^nX_i,\sum_{j=1}^mY_j)=\sum_{i=1}^n\sum_{j=1}^mCov(X_i,Y_j) Cov(i=1nXi,j=1mYj)=i=1nj=1mCov(Xi,Yj)
3.4 协方差矩阵

之前X,Y都是1维标量,这里,X是由n个随机变量组成的列向量,Y由m个:
X = [ x 1 x 2 ⋯ x n ] , Y = [ y 1 y 2 ⋯ y m ] , E ( X ) = [ E ( x 1 ) E ( x 2 ) ⋯ E ( x n ) ] X=\left[ \begin{matrix} x_1 \\ x_2 \\ \cdots \\ x_n \end{matrix} \right],Y=\left[ \begin{matrix} y_1 \\ y_2 \\ \cdots \\ y_m \end{matrix} \right],E(X)=\left[ \begin{matrix} E(x_1) \\ E(x_2) \\ \cdots \\ E(x_n) \end{matrix} \right] X= x1x2xn ,Y= y1y2ym ,E(X)= E(x1)E(x2)E(xn)
协方差矩阵由两个定义:

  1. 协方差称之为随机向量X的方差(Variance of random vector X):
    Σ = V a r ( X ) = C o v ( X , X ) = E ( ( X − E ( X ) ) ( X − E ( X ) ) T ) \Sigma=Var(X)=Cov(X,X)=E((X-E(X))(X-E(X))^T) Σ=Var(X)=Cov(X,X)=E((XE(X))(XE(X))T)
  2. 两个随机向量X,Y之间的协方差:
    C o v ( X , Y ) = E ( ( X − E ( X ) ) ( Y − E ( Y ) ) T ) Cov(X,Y)=E((X-E(X))(Y-E(Y))^T) Cov(X,Y)=E((XE(X))(YE(Y))T)
    两种定义都有,其第(i,j)位置的值为:
    Σ i j = C o v ( x i , y j ) = E ( ( x i − E ( x i ) ) ( y j − E ( y j ) ) ) \Sigma_{ij}=Cov(x_i,y_j)=E({\color{red}(x_i-E(x_i))}{\color{blue}(y_j-E(y_j))}) Σij=Cov(xi,yj)=E((xiE(xi))(yjE(yj)))
    μ i = E ( x i ) , μ = E ( X ) \mu_i=E(x_i), \mu=E(X) μi=E(xi),μ=E(X),则有
    Σ = [ E ( ( x 1 − μ 1 ) ) ( x 1 − μ 1 ) E ( ( x 1 − μ 1 ) ) ( x 2 − μ 2 ) ⋯ E ( ( x 1 − μ 1 ) ) ( x n − μ n ) E ( ( x 2 − μ 2 ) ) ( x 1 − μ 1 ) E ( ( x 2 − μ 2 ) ) ( x 2 − μ 2 ) ⋯ E ( ( x 2 − μ 2 ) ) ( x n − μ n ) ⋮ ⋮ ⋱ ⋮ E ( ( x n − μ n ) ) ( x 1 − μ 1 ) E ( ( x n − μ n ) ) ( x 2 − μ 2 ) ⋯ E ( ( x n − μ n ) ) ( x n − μ n ) ] \Sigma= \left[ \begin{matrix} E((x_1-\mu_1))(x_1-\mu_1) & E((x_1-\mu_1))(x_2-\mu_2) & \cdots & E((x_1-\mu_1))(x_n-\mu_n) \\ E((x_2-\mu_2))(x_1-\mu_1) & E((x_2-\mu_2))(x_2-\mu_2) & \cdots & E((x_2-\mu_2))(x_n-\mu_n) \\ \vdots & \vdots & \ddots & \vdots \\ E((x_n-\mu_n))(x_1-\mu_1) & E((x_n-\mu_n))(x_2-\mu_2) & \cdots &E((x_n-\mu_n))(x_n-\mu_n) \end{matrix} \right] Σ= E((x1μ1))(x1μ1)E((x2μ2))(x1μ1)E((xnμn))(x1μ1)E((x1μ1))(x2μ2)E((x2μ2))(x2μ2)E((xnμn))(x2μ2)E((x1μ1))(xnμn)E((x2μ2))(xnμn)E((xnμn))(xnμn)
性质:

A , B 为 m × n 维矩阵 , a 为 n × 1 维列向量: A,B为m\times n维矩阵,a为n\times 1维列向量: ABm×n维矩阵,an×1维列向量:

  1. Σ = E ( X X T ) − μ μ T \Sigma=E(XX^T)-\mu\mu^T Σ=E(XXT)μμT
  2. Σ \Sigma Σ是半正定的对称矩阵
  3. Σ ≥ 0 , Σ = Σ T \Sigma\geq0,\Sigma=\Sigma^T Σ0,Σ=ΣT
  4. V a r ( a T X ) = a T V a r ( X ) a Var(a^TX)=a^TVar(X)a Var(aTX)=aTVar(X)a
  5. V a r ( A X + a ) = A V a r ( X ) A T Var(AX+a)=AVar(X)A^T Var(AX+a)=AVar(X)AT
  6. C o v ( X , Y ) = C o v ( Y , X ) T Cov(X,Y)=Cov(Y,X)^T Cov(X,Y)=Cov(Y,X)T
  7. C o v ( X 1 + X 2 , Y ) = C o v ( X 1 , Y ) + C o v ( X 2 , Y ) Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y) Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)
  8. 若n=m, C o v ( X + Y ) = V a r ( X ) + C o v ( X , Y ) + C o v ( Y , X ) + V a r ( Y ) Cov(X+Y)=Var(X)+Cov(X,Y)+Cov(Y,X)+Var(Y) Cov(X+Y)=Var(X)+Cov(X,Y)+Cov(Y,X)+Var(Y)
  9. C o v ( A X , B X ) = A C o v ( X , X ) B T Cov(AX,BX)=ACov(X,X)B^T Cov(AX,BX)=ACov(X,X)BT
  10. 若X,Y相互独立, C o v ( X , Y ) = 0 Cov(X,Y)=0 Cov(X,Y)=0

参考:
https://blog.csdn.net/sodacoco/article/details/89041910
https://zh.m.wikipedia.org/zh/%E6%96%B9%E5%B7%AE
https://zh.m.wikipedia.org/wiki/%E5%8D%8F%E6%96%B9%E5%B7%AE
https://zh.m.wikipedia.org/wiki/%E5%8D%8F%E6%96%B9%E5%B7%AE%E7%9F%A9%E9%98%B5

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值