数学基础——高斯分布

一、极大似然估计

1、极大似然估计

数据: X = x 1 , x 2 , x 3 , . . . , x N X=x_1,x_2,x_3,...,x_N X=x1,x2,x3,...,xN x i x_i xi为n维数据,即 x i = ( x i 1 , x i 2 , x i 3 , . . . , x i n ) x_i=(x_{i1},x_{i2},x_{i3},...,x_{in}) xi=(xi1,xi2,xi3,...,xin),且数据 iid,都服从 N ( μ , Σ ) N(\mu,\Sigma) N(μ,Σ)
参数: θ = ( μ , Σ ) \theta=(\mu,\Sigma) θ=(μ,Σ)
极大似然估计:以一维为例子使用极大似然方法估计参数,即 θ = ( μ , σ 2 ) \theta=(\mu,\sigma^2) θ=(μ,σ2)
极大似然估计:
(1)单个数据的概率分布: p ( x ∣ θ ) = 1 2 π σ e x p ( − ( x − μ ) 2 2 σ 2 ) p(x|\theta)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2}) p(xθ)=2π σ1exp(2σ2(xμ)2)
(2)所有数据的概率分布: p ( X ∣ θ ) = ∏ i = 1 N p ( x i ∣ θ ) p(X|\theta)=\prod\limits_{i=1}^Np(x_i|\theta) p(Xθ)=i=1Np(xiθ)
(3)对数似然函数: l o g p ( X ∣ θ ) = ∑ i = 1 N l o g p ( x i ∣ θ ) = ∑ i = 1 N ( l o g 1 2 π − l o g σ − ( x i − μ ) 2 2 σ 2 ) logp(X|\theta)=\sum\limits_{i=1}^Nlogp(x_i|\theta)=\sum\limits_{i=1}^N(log\frac{1}{\sqrt{2\pi}}-log\sigma-\frac{(x_i-\mu)^2}{2\sigma^2}) logp(Xθ)=i=1Nlogp(xiθ)=i=1N(log2π 1logσ2σ2(xiμ)2)
(4)求参数 μ \mu μ: ∂ l o g ( X ∣ θ ) ∂ μ = − 2 ∑ i = 1 N ( x i − μ ) = 0 ⇒ μ ^ = ∑ i = 1 N x i N \frac{ \partial log(X|\theta)}{\partial \mu}=-2\sum\limits_{i=1}^N(x_i-\mu)=0\Rightarrow\hat{\mu}=\frac{\sum\limits_{i=1}^Nx_i}{N} μlog(Xθ)=2i=1N(xiμ)=0μ^=Ni=1Nxi
(5)求参数 σ \sigma σ: ∂ l o g ( X ∣ θ ) ∂ σ = ∑ i = 1 N ( − 1 σ + ( x i − μ ) 2 σ − 3 = 0 ⇒ σ ^ = ∑ i = 1 N ( x i − μ ^ ) 2 N \frac{\partial log(X|\theta)}{\partial \sigma}=\sum\limits_{i=1}^N(-\frac{1}{\sigma}+(x_i-\mu)^2\sigma^{-3}=0\Rightarrow\hat{\sigma}=\frac{\sum\limits_{i=1}^N(x_i-\hat{\mu})^2}{N} σlog(Xθ)=i=1N(σ1+(xiμ)2σ3=0σ^=Ni=1N(xiμ^)2

2、有偏VS无偏

有偏VS无偏
参数估计时,若 E ( θ ^ ) = θ , 则 为 有 偏 估 计 , 否 则 为 无 偏 估 计 E(\hat{\theta})=\theta,则为有偏估计,否则为无偏估计 E(θ^)=θ

(1)使用最大似然估计得到的高斯分布的均值 μ ^ \hat{\mu} μ^为无偏估计: E ( μ ^ ) = E ( ∑ x i N ) = 1 N E ( ∑ x i ) = 1 N N μ = μ E(\hat\mu)=E(\frac{\sum x_i}{N})=\frac{1}{N}E(\sum x_i)=\frac{1}{N}N\mu=\mu E(μ^)=E(Nxi)=N1E(xi)=N1Nμ=μ,所以 μ \mu μ为无偏估计。
(2)使用最大似然估计得到的高斯分布的方差 σ 2 ^ \hat{\sigma^2} σ2^为有偏估计: E ( σ 2 ^ ) = E ( ∑ ( x i − μ ^ ) 2 N ) = 1 N ∑ E ( x i 2 − 2 x i μ ^ + μ ^ 2 ) = 1 N ∑ ( E ( x i 2 ) − 2 E ( x i μ ^ 2 ) + E ( μ ^ ) ) = 1 N ∑ ( E ( x i ) 2 − μ ^ 2 ) = 1 N ∑ ( E ( x i ) 2 − μ 2 − ( μ ^ 2 − μ 2 ) ) = 1 N ( N v a r ( x ) − N v a r ( μ ^ ) ) = σ 2 − v a r ( μ ^ ) = σ 2 − 1 N σ 2 = N − 1 N σ 2 ≠ σ 2 E(\hat{\sigma^2}) =E(\frac{\sum (x_i-\hat{\mu})^2}{N})=\frac{1}{N}\sum E(x_i^2-2x_i\hat{\mu}+\hat\mu^2)=\frac{1}{N}\sum (E(x_i^2)-2E(x_i\hat{\mu}^2)+E(\hat{\mu}))=\frac{1}{N}\sum(E(x_i)^2-\hat{\mu}^2)=\frac{1}{N}\sum(E(x_i)^2-\mu^2-(\hat{\mu}^2-\mu^2))=\frac{1}{N}(Nvar(x)-Nvar(\hat{\mu}))=\sigma^2-var(\hat{\mu})=\sigma^2-\frac{1}{N}\sigma^2=\frac{N-1}{N}\sigma^2\not=\sigma^2 E(σ2^)=E(N(xiμ^)2)=N1E(xi22xiμ^+μ^2)=N1(E(xi2)2E(xiμ^2)+E(μ^))=N1(E(xi)2μ^2)=N1(E(xi)2μ2(μ^2μ2))=N1(Nvar(x)Nvar(μ^))=σ2var(μ^)=σ2N1σ2=NN1σ2=σ2
并且使用最大似然估计得到的方差偏小,这是因为使用了均值的估计值对方差进行估计,从而导致使用最大似然对方差进行估计是有偏的。
(3) σ 2 \sigma^2 σ2的无偏估计为: 1 N − 1 ∑ ( x i − μ ^ ) 2 \frac{1}{N-1}\sum(x_i-\hat{\mu})^2 N11(xiμ^)2

二、从概率密度角度看高分布

当是多维高斯分布时,其概率密度函数为: p ( x ) = 1 ( 2 π ) 1 n ∣ Σ ∣ 1 2 e x p ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) p(x)=\frac{1}{(2\pi)^{\frac{1}{n}}|\Sigma|^\frac{1}{2}}exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)) p(x)=(2π)n1Σ211exp(21(xμ)TΣ1(xμ))
对于同一个分布,不同的只是x的取值,其余 μ 和 Σ \mu和\Sigma μΣ可视为常数,因此考虑不同x的取值对 ( x − μ ) T Σ − 1 ( x − μ ) (x-\mu)^T\Sigma^{-1}(x-\mu) (xμ)TΣ1(xμ)的影响。
首先考虑协方差矩阵 Σ \Sigma Σ,根据特征值分解: Σ = U Λ U T , U U T = U T U = I , Λ = d i a g ( λ i )   i = 1 , 2 , . . . , n , U = ( u 1 , u 2 , . . . , u p ) p ∗ p \Sigma=U\Lambda U^T,UU^T=U^TU=I,\Lambda=diag(\lambda_i) ~i=1,2,...,n,U=(u_1,u_2,...,u_p)_{p*p} Σ=UΛUT,UUT=UTU=I,Λ=diag(λi) i=1,2,...,nU=u1,u2,...,up)pp
⇒ Σ = ( u 1 , u 2 , . . . , u n ) Λ ( u 1 , u 2 , . . . , u n ) T = ( u 1 λ 1 , u 2 λ 2 , . . . , u n λ n ) ( u 1 , u 2 , . . . , u n ) T = ∑ i = 1 n u i λ i u i T \Rightarrow\Sigma=(u_1,u_2,...,u_n)\Lambda(u_1,u_2,...,u_n)^ T=(u_1\lambda_1,u_2\lambda_2,...,u_n\lambda_n)(u_1,u2,...,u_n)^T=\sum\limits_{i=1}^nu_i\lambda_iu_i^T Σ=(u1,u2,...,un)Λ(u1,u2,...,un)T=(u1λ1,u2λ2,...,unλn)(u1,u2,...,un)T=i=1nuiλiuiT
Σ − 1 = ( U Λ U ) − 1 = U Λ − 1 U T = ∑ i = 1 n u i 1 λ i u i T \Sigma^{-1}=(U\Lambda U)^{-1}=U\Lambda^{-1}U^T=\sum\limits_{i=1}^nu_i\frac{1}{\lambda_i}u_i^T Σ1=(UΛU)1=UΛ1UT=i=1nuiλi1uiT
则记 Δ = ( x − μ ) T Σ − 1 ( x − μ ) = ∑ i = 1 n ( x − μ ) T u i 1 λ i u i T ( x − μ ) , 令 y i = ( x − μ ) T u i , 则 Δ = ∑ i = 1 n y i 1 λ i y i = ∑ i = 1 n y i 2 λ i \Delta=(x-\mu)^T\Sigma^{-1}(x-\mu)=\sum\limits_{i=1}^n(x-\mu)^Tu_i\frac{1}{\lambda_i}u_i^T(x-\mu),令y_i=(x-\mu)^Tu_i,则\Delta=\sum\limits_{i=1}^ny_i\frac{1}{\lambda_i}y_i=\sum\limits_{i=1}^n\frac{y_i^2}{\lambda_i} Δ=(xμ)TΣ1(xμ)=i=1n(xμ)Tuiλi1uiT(xμ),yi=(xμ)Tui,Δ=i=1nyiλi1yi=i=1nλiyi2
Δ \Delta Δ取值相同时,有相同的概率(在一点时,概率密度的值即为该点的概率),若n=2,则 Δ = y 1 2 λ 1 + y 2 2 λ 2 \Delta=\frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2} Δ=λ1y12+λ2y22,当取定值 Δ = r \Delta=r Δ=r时, y 1 2 λ 1 + y 2 2 λ 2 = r \frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2}=r λ1y12+λ2y22=r,其为 y 1 y_1 y1轴和 y 2 y_2 y2轴上的椭圆,其中 y 1 y_1 y1 y 2 y_2 y2的坐标是通过对x进行映射得到,即 y i = ( x − μ ) T u i y_i=(x-\mu)^Tu_i yi=(xμ)Tui。因此,在二维高斯分布中,相同的概率的点在平面上方的映射为一个个椭圆。

三、高斯分布的局限性

高维高斯分布需要求其协方差矩阵,复杂度为 O ( p 2 ) O(p^2) O(p2),当很高维时复杂度很高,因此在一些情况下对协方差矩阵进行一些假设可以降低复杂度:
(1)协方差矩阵为对角矩阵,则 y i y_i yi的方向与 x i x_i xi同向,只是对 x i x_i xi进行了平移,x的各维之间无关,互相正交。
(2)协方差矩阵为对角矩阵且特诊值都相同,即 λ i = λ \lambda_i=\lambda λi=λ,则 Δ \Delta Δ值相同时为圆形,不再是椭圆,x分布是各向同性的。

四、求边缘概率和条件概率

数据格式:
已知
x = x= x= ( x a x b ) \begin{pmatrix}x_a \\ x_b \end{pmatrix} (xaxb) μ = \mu= μ= ( μ a μ b ) \begin{pmatrix}\mu_a\\\mu_b \end{pmatrix} (μaμb) Σ = \Sigma= Σ= [ Σ a a Σ a b Σ b a Σ b b ] \begin{bmatrix} \Sigma_{aa} & \Sigma_{ab} \\\Sigma_{ba} & \Sigma_{bb}\end{bmatrix} [ΣaaΣbaΣabΣbb]
根据协方差矩阵的对称性: Σ a b = Σ b a T \Sigma_{ab}=\Sigma_{ba}^T Σab=ΣbaT
p ( x a ) 和 p ( x b ∣ x a ) p(x_a)和p(x_b|x_a) p(xa)p(xbxa)

1、定理

已知 x 服 从 N ( μ , Σ ) , x 为 n 维 向 量 , y = A x + B , A 为 q ∗ n 的 矩 阵 , y 为 q 维 向 量 , 则 : x服从N(\mu,\Sigma),x为n维向量,y=Ax+B,A为q*n的矩阵,y为q维向量,则: xN(μ,Σ)xny=Ax+BAqnyq
y 服 从 N ( A μ + B , A Σ A T ) y服从N(A\mu+B,A\Sigma A^T) yN(Aμ+B,AΣAT)

2、求边缘概率密度

(1)求边缘概率 p ( x a ) p(x_a) p(xa):
x a = ( I m ∗ m   0 m ∗ n ) x x_a=(I_{m*m}~ 0_{m*n})x xa=(Imm 0mn)x,则根据定理有 A = ( I m ∗ m   0 m ∗ n ) , B = 0 A=(I_{m*m}~0_{m*n}),B=0 A=(Imm 0mn),B=0
⇒ E ( x a ) = A ∗ μ + B = ( I m ∗ m   0 m ∗ n ) ( μ a   μ b ) T + 0 = μ a \Rightarrow E(x_a)=A*\mu+B=(I_{m*m}~0_{m*n})(\mu_a~\mu_b)^T+0=\mu_a E(xa)=Aμ+B=(Imm 0mn)(μa μb)T+0=μa
v a r ( x a ) = A Σ A T = Σ a a var(x_a)=A\Sigma A^T=\Sigma_{aa} var(xa)=AΣAT=Σaa
所以, x a x_a xa服从 N ( μ a , Σ a a ) N(\mu_a,\Sigma_{aa}) N(μa,Σaa),则边缘概率 p ( x a ) p(x_a) p(xa)得解。
(2)求条件概率 p ( x b ∣ x a ) p(x_b|x_a) p(xbxa),求解的过程比较有技巧性,间接性求解。
首先记一些符号: x b a = x b − Σ b a Σ a a − 1 x a x_{ba}=x_b-\Sigma_{ba}\Sigma_{aa}^{-1}x_a xba=xbΣbaΣaa1xa
         μ b a = μ b − Σ b a Σ a a − 1 μ a \mu_{ba}=\mu_b-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a μba=μbΣbaΣaa1μa
         Σ b b a = Σ b b − Σ b a Σ a a − 1 Σ a b \Sigma_{bba}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} Σbba=ΣbbΣbaΣaa1Σab
观察上面的符号,可以知道如果知道 x b a x_{ba} xba的分布,那么 x b x_b xb的分布也就可以得到:
x b a = ( − Σ b a Σ a a − 1      I n ) x x_{ba}=(-\Sigma_{ba}\Sigma_{aa}^{-1}~ ~~~I_n)x xba=(ΣbaΣaa1    In)x , 则 A = ( − Σ b a Σ a a − 1      I n ) , B = 0 ,则A=(-\Sigma_{ba}\Sigma_{aa}^{-1}~ ~~~I_n),B=0 ,A=(ΣbaΣaa1    In),B=0
⇒ E ( x b a ) = A μ + B = μ b a \Rightarrow E(x_{ba})=A\mu+B=\mu_ba E(xba)=Aμ+B=μba
⇒ v a r ( x b a ) = A x A T = Σ b b a \Rightarrow var(x_{ba})=AxA^T=\Sigma_{bba} var(xba)=AxAT=Σbba
⇒ x b a 服 从 N ( μ b a , Σ b b a ) \Rightarrow x_{ba}服从N(\mu_ba,\Sigma_{bba}) xbaN(μba,Σbba)
因为 x b = x b a + Σ b a Σ a a − 1 x a , 则 A = I , B = Σ b a Σ a a − 1 x a x_b=x_{ba}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a,则A=I,B=\Sigma_{ba}\Sigma_{aa}^{-1}x_a xb=xba+ΣbaΣaa1xa,A=I,B=ΣbaΣaa1xa
⇒ E ( x b ∣ x a ) = μ b a + B = μ b a + Σ b a Σ a a − 1 x a \Rightarrow E(x_b|x_a)=\mu_{ba}+B=\mu_{ba}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a E(xbxa)=μba+B=μba+ΣbaΣaa1xa
⇒ v a r ( x b ∣ x a ) = v a r ( x b a ) = Σ b b a \Rightarrow var(x_b|x_a)=var(x_{ba})=\Sigma_{bba} var(xbxa)=var(xba)=Σbba
⇒ x b ∣ x a 服 从 N ( μ b a + Σ b a Σ a a − 1 x a , Σ b b a ) \Rightarrow x_b|x_a服从N(\mu_{ba}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a,\Sigma_{bba}) xbxaN(μba+ΣbaΣaa1xa,Σbba),条件概率得解。
因为有对称性,所以 x b ∣ x a x_b|x_a xbxa只需要更改a,b的位置。

3、例子

已知:
p ( x ) = N ( x ∣ μ , Λ − 1 ) p(x)=N(x|\mu,\Lambda^{-1}) p(x)=N(xμ,Λ1)
p ( y ∣ x ) = N ( y ∣ A x + b , L − 1 ) p(y|x)=N(y|Ax+b,L^{-1}) p(yx)=N(yAx+b,L1)
p ( y ) , p ( x ∣ y ) p(y),p(x|y) p(y),p(xy)
解:
(1)因为x服从高斯分布,且p(y|x)也为高斯分布,则x与y之间的关系为: y = A x + b + ϵ , 其 中 ϵ 服 从 N ( 0 , L − 1 ) y=Ax+b+\epsilon,其中\epsilon服从N(0,L^{-1}) y=Ax+b+ϵ,ϵN(0,L1)
⇒ E ( y ) = E ( A x + b + ϵ ) = A E ( x ) + b = A μ + b \Rightarrow E(y)=E(Ax+b+\epsilon)=AE(x)+b=A\mu+b E(y)=E(Ax+b+ϵ)=AE(x)+b=Aμ+b
⇒ v a r ( y ) = A v a r ( x ) A T = A Λ − 1 A \Rightarrow var(y)=Avar(x)A^T=A\Lambda^{-1}A var(y)=Avar(x)AT=AΛ1A
所以 p ( y ) = N ( A μ + b , A Λ − 1 A ) p(y)=N(A\mu+b,A\Lambda^{-1}A) p(y)=N(Aμ+b,AΛ1A)
(2)求条件概率,首先求联合概率,则根据2中的式子求解条件概率。
因为x服从高斯分布,y也服从高斯分布,则其联合分布也服从高斯分布,即 z = ( x T     y T ) T z=(x^T~~~y^T)^T z=(xT   yT)T也服从高斯分布,且
E ( z ) = E(z)= E(z)= [ μ A μ + b ] \begin{bmatrix} \mu \\ A\mu+b \end{bmatrix} [μAμ+b]
v a r ( z ) = var(z)= var(z)= [ Λ − 1 Δ Δ T L − 1 + A Λ − 1 A T ] \begin{bmatrix} \Lambda^{-1} & \Delta \\ \Delta^T & L^{-1}+A\Lambda^{-1}A^T \end{bmatrix} [Λ1ΔTΔL1+AΛ1AT]
此时,问题转化为求解 Δ \Delta Δ Δ \Delta Δ为x,y的协方差矩阵:
Δ = C o v ( x , y ) \Delta=Cov(x,y) Δ=Cov(x,y)
= E ( x − E ( x ) ) ( y − E ( y ) ) T =E(x-E(x))(y-E(y))^T =E(xE(x))(yE(y))T
= E ( x − μ ) ( y − A μ − b ) T =E(x-\mu)(y-A\mu-b)^T =E(xμ)(yAμb)T
= E ( x − μ ) ( A x + b + ϵ − A μ − b ) T =E(x-\mu)(Ax+b+\epsilon-A\mu-b)^T =E(xμ)(Ax+b+ϵAμb)T
= E ( x − μ ) ( A x − A μ + ϵ ) T =E(x-\mu)(Ax-A\mu+\epsilon)^T =E(xμ)(AxAμ+ϵ)T
= E ( x − μ ) ( A x − A μ ) T + ( x − μ ) ϵ T =E(x-\mu)(Ax-A\mu)^T+(x-\mu)\epsilon^T =E(xμ)(AxAμ)T+(xμ)ϵT
因为 x 与 ϵ x与\epsilon xϵ独立并且 E ( ϵ ) = 0 E(\epsilon)=0 E(ϵ)=0
⇒ = E ( x − μ ) ( A x − A μ ) T \Rightarrow =E(x-\mu)(Ax-A\mu)^T =E(xμ)(AxAμ)T
= E [ ( x − μ ) ( x − μ ) T ] A =E[(x-\mu)(x-\mu)^T]A =E[(xμ)(xμ)T]A
= v a r ( x ) A T =var(x)A^T =var(x)AT = Λ − 1 A T =\Lambda^{-1}A^T =Λ1AT
⇒ Δ = Λ − 1 A T \Rightarrow \Delta=\Lambda^{-1}A^T Δ=Λ1AT
p ( x , y ) p(x,y) p(x,y)求得,求解p(x|y)根据(2)中的条件概率计算公式。

参考视频,大佬太厉害了

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值