白板推导2-高斯分布

1:用极大似然求高斯分布参数

d a t a : X = ( x 1   x 2   . . .   x p ) T data:X=(x_1 \ x_2 \ ... \ x_p)^T data:X=(x1 x2 ... xp)T
x i ∈ R p x_i \in R^p xiRp
x i   服 从 N ( μ , σ 2 ) x_i \ 服从 \quad N(\mu,\sigma^2) xi N(μ,σ2) ,是独立同分布
一维高斯概率密度函数:
p ( x ) = 1 2 π σ exp ⁡ { − ( x − μ ) 2 2 σ 2 } p(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\{-\frac{(x-\mu)^2}{2\sigma^2}\} p(x)=2π σ1exp{2σ2(xμ)2}
多维高斯概率密度函数:
p ( x ) = 1 ( 2 π ) p 2 ∣ Σ ∣ 1 2 exp ⁡ { − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) } p(x) =\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}\exp\{-\frac{1}{2}(x-\mu)^T \Sigma^{-1}(x-\mu)\} p(x)=(2π)2pΣ211exp{21(xμ)TΣ1(xμ)}
极大似然法求一维高斯的参数
θ = ( μ , σ 2 ) \theta =(\mu,\sigma^2) θ=(μ,σ2)
对原概率函数求对数,对数函数和原函数有相同的单调性
log ⁡ p ( x ∣ θ ) = log ⁡ ∏ i = 1 n p ( x i ∣ θ ) \log p(x|\theta)= \displaystyle \log \prod_{i=1}^n p(x_i|\theta) logp(xθ)=logi=1np(xiθ)
= ∑ i = 1 n log ⁡ p ( x i ∣ θ ) = \displaystyle \sum_{i=1}^n \log p(x_i|\theta) =i=1nlogp(xiθ)
= ∑ i = 1 n log ⁡ 1 2 π σ exp ⁡ { − ( x i − μ ) 2 2 σ 2 } = \displaystyle \sum_{i=1}^n \log \frac{1}{\sqrt{2\pi}\sigma}\exp\{-\frac{(x_i-\mu)^2}{2\sigma^2}\} =i=1nlog2π σ1exp{2σ2(xiμ)2}
= ∑ i = 1 n ( log ⁡ 1 2 π + log ⁡ 1 σ − ( x i − μ ) 2 2 σ 2 ) = \displaystyle \sum_{i=1}^n( \log \frac{1}{\sqrt{2\pi}}+\log \frac{1}{\sigma}-\frac{(x_i-\mu)^2}{2\sigma^2}) =i=1n(log2π 1+logσ12σ2(xiμ)2)

M L E μ = a r g m a x μ log ⁡ p ( x ∣ θ ) MLE_\mu =argmax_\mu \log p(x|\theta) MLEμ=argmaxμlogp(xθ)
= a r g m a x μ ∑ i = 1 n ( log ⁡ 1 2 π + log ⁡ 1 σ − ( x i − μ ) 2 2 σ 2 ) =argmax_\mu \displaystyle \sum_{i=1}^n( \log \frac{1}{\sqrt{2\pi}}+\log \frac{1}{\sigma}-\frac{(x_i-\mu)^2}{2\sigma^2}) =argmaxμi=1n(log2π 1+logσ12σ2(xiμ)2)
μ 求 偏 导 并 令 其 为 0 有 \mu 求偏导并令其为0 有 μ0
∑ i = 1 n 2 ( x i − μ ) ( − 1 ) = 0 \displaystyle \sum_{i=1}^n2(x_i-\mu)(-1)=0 i=1n2(xiμ)(1)=0
∑ i = 1 n x i = ∑ i = 1 n μ \displaystyle \sum_{i=1}^nx_i=\displaystyle \sum_{i=1}^n\mu i=1nxi=i=1nμ
μ = 1 n ∑ i = 1 n x i \mu = \frac{1}{n}\displaystyle \sum_{i=1}^nx_i μ=n1i=1nxi

σ 2 求 偏 导 并 令 其 为 0 有 \sigma^2求偏导并令其为0 有 σ20
∑ i = 1 n ( − 1 σ − ( x i − μ ) 2 2 ∗ ( − 2 ) σ − 3 ) = 0 \displaystyle \sum_{i=1}^n(-\frac{1}{\sigma}-\frac{(x_i-\mu)^2}{2}*(-2)\sigma^{-3})=0 i=1n(σ12(xiμ)2(2)σ3)=0
∑ i = 1 n ( ( x i − μ ) 2 − σ 2 ) = 0 \displaystyle \sum_{i=1}^n((x_i-\mu)^2-\sigma^2)=0 i=1n((xiμ)2σ2)=0
σ 2 = 1 n ∑ i = 1 n ( x i − μ ) 2 = 0 \sigma^2 =\frac{1}{n}\displaystyle \sum_{i=1}^n(x_i-\mu)^2=0 σ2=n1i=1n(xiμ)2=0

2:高斯分布的几何解释

多维高斯分布公式:
p ( x ) = 1 ( 2 π ) p 2 ∣ Σ ∣ 1 2 exp ⁡ { − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) } p(x) =\displaystyle \frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}\exp\{-\frac{1}{2}(x-\mu)^T \Sigma^{-1}(x-\mu)\} p(x)=(2π)2pΣ211exp{21(xμ)TΣ1(xμ)}
其中
x i ∈ R p x_i \in R^p xiRp
X = [ x 1 x 2 . . . x n ] μ = [ μ 1 μ 2 . . . μ n ] Σ = [ σ 11   σ 12   . . . σ 1 p σ 21   σ 22   . . . σ 2 p . . . . . . . . . σ n 1   σ n 2   . . . σ n p ] 并 假 定 Σ 是 正 定 的 X=\left[ \begin{matrix} x_1 \\ x_2 \\ ...\\x_n \end{matrix} \right] \qquad \mu=\left[ \begin{matrix} \mu_1 \\ \mu_2 \\ ...\\\mu_n \end{matrix} \right] \qquad \Sigma=\left[ \begin{matrix} \sigma_{11} \ \sigma_{12} \ ... \sigma_{1p} \\ \sigma_{21} \ \sigma_{22} \ ... \sigma_{2p} \\ ......... \\ \sigma_{n1} \ \sigma_{n2} \ ... \sigma_{np} \\ \end{matrix} \right] \qquad 并假定\Sigma是正定的 X=x1x2...xnμ=μ1μ2...μnΣ=σ11 σ12 ...σ1pσ21 σ22 ...σ2p.........σn1 σn2 ...σnpΣ
多维高斯分布只有指数项部分和x相关,所以可以只研究指数项部分,其中
( x − μ ) T Σ − 1 ( x − μ ) 称 为 x 与 μ 的 马 氏 距 离 (x-\mu)^T \Sigma^{-1}(x-\mu)称为x与\mu的马氏距离 (xμ)TΣ1(xμ)xμ
首先对协方差矩阵做特征值分解,因为是正定矩阵有:

Σ = U λ U T , U U T = U T U = U − 1 U = I , λ = d i a g ( λ i ) \Sigma =U\lambda U^T, \quad UU^T=U^TU=U^{-1}U=I, \lambda=diag(\lambda_i) Σ=UλUT,UUT=UTU=U1U=I,λ=diag(λi)
Σ − 1 = ( U λ U T ) − 1 = ( U T ) − 1 λ − 1 U − 1 = U λ − 1 U T \Sigma^{-1} =(U\lambda U^T)^{-1}=(U^T)^{-1}\lambda^{-1}U^{-1}=U\lambda^{-1}U^T Σ1=(UλUT)1=(UT)1λ1U1=Uλ1UT
Σ = U λ U T = ( u 1   u 2   . . .   u p ) [ λ 1 . . . . . . . . . . . . . . 0 0... λ 2   . . . . . . . . 0 0......... λ i . . . . 0 0   0   . . . . . . . . . . . λ p ] ( u 1   u 2   . . .   u p ) T \Sigma =U\lambda U^T= (u_1\ u_2 \ ...\ u_p) \left[ \begin{matrix} \lambda_1 ..............0 \\ 0... \lambda_2 \ ... .....0 \\ 0.........\lambda_i .... 0\\ 0 \ 0 \ ...........\lambda_p \\ \end{matrix} \right] (u_1\ u_2 \ ...\ u_p)^T \\ Σ=UλUT=(u1 u2 ... up)λ1..............00...λ2 ........00.........λi....00 0 ...........λp(u1 u2 ... up)T
= ( u 1 λ 1   u 2 λ 2   . . .   u p λ p ) ( u 1   u 2   . . .   u p ) T = ∑ u i λ i u i T =(u_1\lambda_1\ u_2\lambda_2 \ ...\ u_p\lambda_p) (u_1\ u_2 \ ...\ u_p)^T \\ =\sum u_i \lambda_{i}u_i^T =(u1λ1 u2λ2 ... upλp)(u1 u2 ... up)T=uiλiuiT
所以有
Σ − 1 = ∑ i = 1 p u i 1 λ i u i T \Sigma^{-1}=\displaystyle\sum_{i=1}^p u_i \frac{1}{\lambda_{i}}u_i^T Σ1=i=1puiλi1uiT
带入马氏距离有:
( x − μ ) T Σ − 1 ( x − μ ) = ( x − μ ) T ∑ i = 1 p u i 1 λ i u i T ( x − μ ) 把 求 和 符 号 提 到 前 面 有 = ∑ i = 1 p ( x − μ ) T u i 1 λ i u i T ( x − μ ) (x-\mu)^T \Sigma^{-1}(x-\mu)=(x-\mu)^T\displaystyle\sum_{i=1}^p u_i \frac{1}{\lambda_{i}}u_i^T(x-\mu)\\ 把求和符号提到前面有\\ =\displaystyle\sum_{i=1}^p(x-\mu)^T u_i \frac{1}{\lambda_{i}}u_i^T(x-\mu) (xμ)TΣ1(xμ)=(xμ)Ti=1puiλi1uiT(xμ)=i=1p(xμ)Tuiλi1uiT(xμ)
y i = ( x − μ ) T u i y_i=(x-\mu)^T u_i yi=(xμ)Tui
原式= ∑ i = 1 p y i 2 λ i \displaystyle\sum_{i=1}^p \frac{y_i^2}{\lambda_i} i=1pλiyi2
令p=2,也就是3维的情况,有
p ( x ) = y 1 2 λ 1 + y 2 2 λ 2 p(x)=\frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2} p(x)=λ1y12+λ2y22
当概率给定时,比如r,有 p ( x ) = y 1 2 λ 1 + y 2 2 λ 2 = r p(x)=\frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2}=r p(x)=λ1y12+λ2y22=r,从几何角度看,该图形是以 λ 为 轴 , u 方 向 的 椭 圆 \lambda为轴,u方向的椭圆 λu
在这里插入图片描述
概率从0到1的整个形状,如下图所示,像山峰一样
在这里插入图片描述

3:高斯分布的局限性

  1. 协方差参数过多,假定 x ∈ R p , 协 方 差 参 数 为 p 2 , 为 了 简 化 操 作 有 时 可 以 假 定 协 方 差 矩 阵 为 对 角 矩 阵 x \in R^p,协方差参数为p^2,为了简化操作有时可以假定协方差矩阵为对角矩阵 xRp,p2,
  2. 当个的高斯分布不一定符合实际问题,有时可以采用混合高斯模型
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值