【机器学习】【数学推导】极大似然估计MLE

最新推荐文章于 2024-07-09 16:41:05 发布

冰临天下

最新推荐文章于 2024-07-09 16:41:05 发布

阅读量5.7k

点赞数 7

分类专栏：机器学习数学推导

本文链接：https://blog.csdn.net/songyuwen0808/article/details/105178432

版权

机器学习数学推导专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一、什么是极大似然估计(MLE)

极大似然估计(maximum likelihood estimation)，是一个利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值的方法

二、举例说明

举例一个关于MLE经常用的一个例子来说明MLE要做的事情：

假设一个盒子里有未知数量、未知比例的黑色球、白色球，现在我们想了解一下两种颜色球的比例，但是我们只能进行下记步骤：

从盒子中随机拿出一个球
观察并记录球的颜色
将球放回盒子
将盒子内的球摇匀(为了要符合独立同分布, Independent and identically distributed, IID)
重复上述5个步骤

假设进行了10次重复操作后的结果如下：

第几次实验	球的颜色
1	黑色
2	白色
3	白色
4	黑色
5	白色
6	白色
7	白色
8	黑色
9	白色
10	黑色

根据图表可以看出，10次实验中，有4次是黑色(40%)，6次是白色(60%)

单纯从这个实验结果直观来看，盒子中黑色和白色球的比例应该为：60%：40%

但是在实际工作中，样本量大、特征也不仅仅是颜色一种属性，所以没办法直接获取到结果。但是只要我们清楚了这个背后的数学原理，就可以通过公式，很方便快捷的计算出这个结果，从而对参数值进行优化

对于这个例子来说，假设抽取到白球的概率为p，则黑球的概率为(1 - p)，因为抽样的结果已经出现了，那根据这个后验结果，计算出出现这个结果可能性最大的p，就是极大似然估计要做的事情，也就是就是求得使下记式子值最大的p，就是最接近真实白球数目占比的概率：

$\Theta _{MLE} = argmax(p^{6}(1 - p)^{4})$

对于不同的p，式子的结果值如下：

p的值	对应的结果
0%	0
10%	0.0000006561
20%	0.0000262144
30%	0.0001750329
40%	0.0005308416
50%	0.0009765625
60%	0.0011943936
70%	0.0009529569
80%	0.0004194304
90%	0.0000531441
100%	0

为了更清晰的看到变化情况，折线图如下：

从折线图中可以清晰的看出，当p = 0.6时，式子的值是最大的，所以白球最大可能的的占比为60%，与直观结果相同

三、数学推导

本篇只对常见的一维高斯分布进行数学推导

这里重新列并修改一下第二章节中的公式：

需要求解的式子为： $\Theta _{MLE} = argmax(p^{7}(1 - p)^{3}) = argmax \prod_{i = 1}^{N}p(x_{i | \Theta }))$

特征列表为： $X = (x_{1}, x_{2}, x_{3}, ... , x_{n})^{T} = \begin{pmatrix}x_{1}^{T} \\ x_{2}^{T} \\ x_{3}^{T} \\ ... \\ x_{n}^{T} \end{pmatrix}_{N \times P}$

概率服从高斯分布： $x \sim N(\mu , \sigma ^{2})$

高斯分布公式： $p(x) = \frac{{1}}{\sqrt{2\pi }\sigma } e^{(-\frac{(x - \mu )^2}{2\sigma^2})} = \frac{{1}}{\sqrt{2\pi }\sigma } exp(-\frac{(x - \mu )^2}{2\sigma^2})$

为了简化连乘运算，对第一个式子两边同时取对数，利用log的特性，将连乘转换为连加，并将高斯公式带入，式子可以转换为(为了显示清晰，暂时隐藏了argmax)：

$log\Theta _{MLE} = log\prod_{i = 1}^{N}p(x_{i | \Theta })) = \sum_{i = 1}^{N}log(p(x_{i | \Theta })) \\= \sum_{i = 1}^{N}log[\frac{{1}}{\sqrt{2\pi }\sigma } exp(-\frac{(x_ - \mu )^2}{2\sigma^2})] \\= \sum_{i = 1}^{N}[log \frac{{1}}{\sqrt{2\pi }} + log \frac{{1}}{\sigma} -\frac{(x_{i} - \mu )^2}{2\sigma^2}]$

对于高斯分布，重点是求 $\small \mu$ 和 $\small \sigma$ ，所以上面的式子对于 $\small \mu$ 和 $\small \sigma$ 求偏导，并令偏导为0后，求 $\small \mu$ 和 $\small \sigma$ 的推导过程如下：

求 $\small \mu$ :

对 $\small \mu$ 求导得：

$\frac{\partial }{\partial \mu }= \frac {\partial \sum_{i = 1}^{N}[log \frac{{1}}{\sqrt{2\pi }} + log \frac{{1}}{\sigma} -\frac{(x_{i} - \mu )^2}{2\sigma^2}]}{ \partial \mu}\\= \sum_{i = 1}^{N}(-2\times \frac{(x_{i} - \mu )}{2\sigma^2}\times -1)\\= \sum_{i = 1}^{N} \frac{(x_{i} - \mu )}{\sigma^2}$

令上式等于0，得到：

$\small \sum_{i = 1}^{N} \frac{(x_{i} - \mu )}{\sigma^2} = 0$

$\small \sum_{i = 1}^{N} (x_{i} - \mu ) = 0$

因为 $\small \mu$ 与n无关，所以 $\small \mu$ 求和可以转换为： $\small \sum_{i = 1}^{N} x_{i} - N\mu = 0$

所以对于 $\small \mu$ 的估计值为： $\small \mu = \frac{\sum_{i = 1}^{N} x_{i}}{N}$

即样本中x的平均值

求 $\small \sigma$

$\frac{\partial }{\partial \sigma } = \frac {\partial \sum_{i = 1}^{N}[log \frac{{1}}{\sqrt{2\pi }} + log \frac{{1}}{\sigma} -\frac{(x_{i} - \mu )^2}{2\sigma^2}]}{ \partial \sigma} \\ \\= \frac {\partial \sum_{i = 1}^{N}[log \frac{{1}}{\sqrt{2\pi }} - log \sigma -\frac{(x_{i} - \mu )^2}{2\sigma^2}]}{ \partial \sigma} \\ \\= \sum_{i = 1}^{N}[- \frac {1}{\sigma} - \frac{(x_{i} - \mu )^2}{2}\times (-2)\times \sigma^{-3}] \\ \\= \sum_{i = 1}^{N}[- \frac{1}{\sigma} + (x_{i} - \mu )^{2}\sigma ^{-3}]$

令上式等于0，得到：

$\sum_{i = 1}^{N}[- \frac{1}{\sigma} + (x_{i} - \mu )^{2}\sigma ^{-3}] = 0$

等式两边同时 × $\sigma^3$ 得到：

$\sum_{i = 1}^{N}[- \sigma ^2 + (x_{i} - \mu )^{2}] = 0$

同样， $\sigma ^2$ 与i无关，所以式子可以修改为：

$N\sigma ^2 = \sum_{i = 1}^{N}(x_{i} - \mu )^{2}$

所以对于 $\sigma ^2$ 的估计值为： $\sigma ^2 = \frac {\sum_{i = 1}^{N}(x_{i} - \mu )^{2}}{N}$

上面两个对 $\small \mu$ 和 $\sigma ^2$ 的估计值中， $\small \mu$ 为无偏估计，即与真值无偏差；但是 $\sigma ^2$ 为有偏估计，无偏估计应该将分母修改为(N - 1)

有无偏估计的证明如下：

$\small \mu _{mle}$ 无偏估计证明 : $E[\mu _{mle}] = E[\frac{1}{N} \sum_{i = 1}^{N}x_i] = \frac{1}{N} \sum_{i = 1}^{N}[x_i] = \frac{1}{N} \sum_{i = 1}^{N} \mu = \mu$

$\sigma _{mle} ^2$ 有偏估计证明：

$E[\sigma _{mle}^2] \\ \\= E[\frac {1}{N} \sum_{i = 1}^{N}(x_i - \mu_{mle} )^2)] \\ \\= E[\frac {1}{N}\sum_{i = 1}^{N}x_{i}^{2} - \frac {1}{N}\sum_{i = 1}^{N}2x_i\mu_{mle} + \frac {1}{N}\sum_{i = 1}^{N}\mu_{mle} ^2] \\ \\= E[\frac {1}{N}\sum_{i = 1}^{N}x_{i}^{2} - \frac {1}{N}\sum_{i = 1}^{N}2x_i\mu_{mle} + \frac {1}{N}\sum_{i = 1}^{N}\mu_{mle} ^2] \\ \\= E[\frac {1}{N}\sum_{i = 1}^{N}x_{i}^{2} - 2\mu _{mle}^2 + \mu _{mle}^2 \\ \\= E[\frac {1}{N}\sum_{i = 1}^{N}x_{i}^{2} - \mu _{mle}^2] \\ \\= E[(\frac {1}{N} \sum_{x = i}^{N}x_i^2 - \mu ^2) - (\mu _{mle}^2 - \mu ^2)] \\ \\= E(\frac {1}{N} \sum_{x = i}^{N}(x_i^2 - \mu ^2)) - E(\mu _{mle}^2 - \mu ^2) \\ \\= \frac {1}{N}\sum_{x = i}^{N}E(x_i^2 - \mu ^2) - E(\mu _{mle}^2 - \mu ^2) \\ \\= \frac {1}{N}\sum_{x = i}^{N}(E(x_i^2) - \mu ^2) - (E(\mu _{mle}^2) - E(\mu ^2)) \\ \\= \frac {1}{N}\sum_{x = i}^{N}(E(x_i^2) - \mu ^2) - (E(\mu _{mle}^2) - \mu ^2) \\ \\= \frac {1}{N}\sum_{x = i}^{N}(E(x_i^2) - \mu ^2) - (E(\mu _{mle}^2) - E^2 (u_{mle}))$

其中：

$E(x_i^2) - \mu ^2 = Var(x_i) = \sigma ^2$

$E(\mu _{mle}^2) - E^2 (u_{mle}) = Var[\mu _{mle}] \\ \\= Var[\frac {1}{N} \sum_{i = 1}^{N}x_i] \\ \\= \frac {1}{N^{2}} \sum_{i = 1}^{N} Var[x_i] \\ \\= \frac {1}{N^{2}} \sum_{i = 1}^{N} \sigma ^2 \\ \\= \frac {1}{N^{2}} \times N \times \sigma ^2 \\ \\= \frac {\sigma ^2}{N}$

将这两个式子带入到刚刚的结论中，得到下记式子：

$\sigma _{mle} ^ 2 = \frac {1}{N}\sum_{i = 1}^{N}(E(x_i^2) - \mu ^2) - (E(\mu _{mle}^2) - E^2 (u_{mle})) \\ \\= \frac {1}{N}\sum_{i = 1}{N}\sigma ^2 - \frac {\sigma ^2}{N} \\ \\= \sigma ^2 - \frac {\sigma ^{2}}{N} \\ \\= \frac {(N - 1)}{N} \sigma ^2$

所以： $\small \sigma ^2 = \frac {N}{N - 1}\sigma_{mle}^{2}$

四、结论

$\small \mu_{mle} = \mu = \frac{\sum_{i = 1}^{N} x_{i}}{N}$

$\sigma_{mle} ^2 = \frac {\sum_{i = 1}^{N}(x_{i} - \mu )^{2}}{N}$

$\sigma ^2 = \frac {N}{N - 1} \sigma _{mle}^{2} = \frac {N}{N - 1} \times \frac {\sum_{i = 1}^{N}(x_{i} - \mu )^{2}}{N} = \frac {\sum_{i = 1}^{N}(x_{i} - \mu )^{2}}{N - 1}$