第一课.极大似然估计与有偏性无偏性

最新推荐文章于 2022-12-11 10:20:34 发布

tzc_fly

最新推荐文章于 2022-12-11 10:20:34 发布

阅读量6.5k

点赞数 9

分类专栏：随机过程与概率图模型文章标签：统计学

本文链接：https://blog.csdn.net/qq_40943760/article/details/115232939

版权

极大似然估计高斯分布参数估计无偏性方差修正

关键词由CSDN通过智能技术生成

随机过程与概率图模型专栏收录该内容

23 篇文章 17 订阅

订阅专栏

极大似然估计

问题背景

以高斯分布引出问题，高斯分布的重要性体现于：

1.根据中心极限定理，当样本量足够大的时候，任意分布的均值都趋近于一个高斯分布，高斯分布具有工程应用的普适性；
2.高斯分布是许多模型的基础，比如线性高斯模型（卡尔曼滤波器），高斯过程等；

假设有一组观测到的样本数据 $X=(x_{1},x_{2},...,x_{N})$ ，他们服从参数 $\theta=(\mu,\sigma^{2})$ 的一元高斯分布，可以使用极大似然估计得到高斯分布的参数，首先回顾一元高斯分布概率密度函数的表达：
$p(x)=\frac{1}{\sqrt{2\pi\sigma^{2}}}exp(-\frac{(x-\mu)^{2}}{2\sigma^{2}})$
极大似然估计（Maximum Likelihood Estimation，简称mle）的本质是估计参数 $\theta$ ，使得所观测样本 $X$ 出现的概率最大；此处需要熟悉一种数学格式 $p(x|\theta)$ ，指的是明确了参数 $\theta$ 情况下，服从高斯分布的样本 $x$ 出现的概率，事实上，这个格式的写法和概率密度一致：
$p(x|\theta)=\frac{1}{\sqrt{2\pi\sigma^{2}}}exp(-\frac{(x-\mu)^{2}}{2\sigma^{2}})$

极大似然估计的计算方法

假设样本 $X=(x_{1},x_{2},...,x_{N})$ 中每个样本 $x_{i}$ 都是独立同分布的，即满足同一个高斯分布，且彼此间相互独立，则极大似然的优化目标可以写为：
$max_{\theta}p(X|\theta)=max_{\theta}\prod_{i=1}^{N}p(x_{i}|\theta)$
取对数可以将乘积转为求和：
$log(p(X|\theta))=\sum_{i=1}^{N}log(p(x_{i}|\theta))=\sum_{i=1}^{N}log(\frac{1}{\sqrt{2\pi\sigma^{2}}}exp(-\frac{(x_{i}-\mu)^{2}}{2\sigma^{2}}))=\sum_{i=1}^{N}[log\frac{1}{\sqrt{2\pi}}+log\frac{1}{\sigma}-\frac{(x_{i}-\mu)^{2}}{2\sigma^{2}}]$
对上式求偏导，解出偏导为0的根即得到参数的取值：
$\mu_{mle}=\frac{1}{N}\sum_{i=1}^{N}x_{i}$
可以看出，样本的均值就是高斯分布参数 $\mu$ 的极大似然估计值；

同样的方式得到：
$\sigma^{2}_{mle}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu_{mle})^{2}$

参数估计的有偏性和无偏性

通过极大似然估计的参数是否与模型参数真实值存在差距，如何衡量它们是一个问题，所以引入无偏估计的概念：如果估计量的期望等于被估计量的真实值，则称估计值满足无偏性；

对于上面的高斯分布参数估计，进行无偏性的检验，先从均值的估计值考虑，计算 $\mu_{mle}$ 的期望：
$E[\mu_{mle}]=E[\frac{1}{N}\sum_{i=1}^{N}x_{i}]=\frac{1}{N}\sum_{i=1}^{N}E[x_{i}]=\frac{1}{N}\sum_{i=1}^{N}\mu=\mu$
可以得到， $E[\mu_{mle}]=\mu$ ，即估计值的期望等于模型参数的真实值，因此，均值的极大似然估计 $\mu_{mle}$ 是无偏估计；

然后，检验方差估计的无偏性，首先对表达式变形：
$\sigma^{2}_{mle}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu_{mle})^{2}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}^{2}-2x_{i}\mu_{mle}+\mu_{mle}^{2})=\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}+\frac{1}{N}\sum_{i=1}^{N}\mu_{mle}^{2}-2\mu_{mle}\frac{1}{N}\sum_{i=1}^{N}x_{i}$
发现 $\frac{1}{N}\sum_{i=1}^{N}x_{i}$ 就是 $\mu_{mle}$ ，所以进行替换：
$\sigma_{mle}^{2}=\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}+\frac{1}{N}\sum_{i=1}^{N}\mu_{mle}^{2}-2\mu_{mle}\frac{1}{N}\sum_{i=1}^{N}x_{i}=\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}+\mu_{mle}^{2}-2\mu_{mle}^{2}=\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-\mu_{mle}^{2}$
因此，得到：
$E[\sigma_{mle}^{2}]=E[\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-\mu_{mle}^{2}]=E[\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-\mu^{2}-(\mu_{mle}^{2}-\mu^{2})]=E[\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-\mu^{2}]-E[\mu_{mle}^{2}-\mu^{2}]$
对于第一项 $E[\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-\mu^{2}]$ ：
$E[\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-\mu^{2}]=E[\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-\frac{1}{N}\sum_{i=1}^{N}\mu^{2}]=\frac{1}{N}E[\sum_{i=1}^{N}(x_{i}^{2}-\mu^{2})]=\frac{1}{N}\sum_{i=1}^{N}E[(x_{i}^{2}-\mu^{2})]$
注意到：
$E[(x_{i}^{2}-\mu^{2})]=E[x_{i}^{2}]-\mu^{2}=E[x_{i}^{2}]-E[x_{i}]^{2}=var(x_{i})=\sigma^{2}$
所以：
$E[\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-\mu^{2}]=\frac{1}{N}\sum_{i=1}^{N}E[(x_{i}^{2}-\mu^{2})]=\sigma^{2}$
处理第二项 $E[\mu_{mle}^{2}-\mu^{2}]$ ：
$E[\mu_{mle}^{2}-\mu^{2}]=E[\mu_{mle}^{2}]-E[\mu^{2}]=E[\mu_{mle}^{2}]-\mu^{2}$
之前已经证明，均值的极大似然估计是无偏的，因此 $\mu=E[\mu_{mle}]$ ，因此可以替换得到：
$E[\mu_{mle}^{2}]-\mu^{2}=E[\mu_{mle}^{2}]-E[\mu_{mle}]^{2}=var(\mu_{mle})=var(\frac{1}{N}\sum_{i=1}^{N}x_{i})=\frac{1}{N}\sigma^{2}$
合并结果：
$E[\sigma_{mle}^{2}]=\sigma^{2}-\frac{1}{N}\sigma^{2}=\frac{N-1}{N}\sigma^{2}$
方差的极大似然估计值的期望不等于真实值，所以是有偏的，为了变成无偏，需要进行修正：
$\widehat{\sigma}^{2}=\frac{N}{N-1}\sigma_{mle}^{2}=\frac{1}{N-1}\sum_{i=1}^{N}(x_{i}-\mu_{mle})^{2}$