如何通俗的理解最大似然估计法

RainTicking

已于 2024-01-04 16:18:10 修改

阅读量6.4k

点赞数 5

分类专栏：机器学习文章标签：机器学习

于 2020-05-23 16:56:20 首次发布

本文链接：https://blog.csdn.net/RainTicking/article/details/105985383

版权

机器学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

一枚硬币有两面，一般来讲，抛一枚硬币出现正面和反面的概率是差不多的。假如我抛了100次硬币，结果100次都是正面。在这样的事实下，这枚硬币的参数不是公平的，即参数不是0.5。如果你硬要说是公平的，那就是在侮辱我的智商。
我们常常用概率(Probability) 来描述一个事件发生的可能性。而似然性(Likelihood) 正好反过来，意思是一个事件实际已经发生了，反推在什么参数条件下，这个事件发生的概率最大；推断出最有可能的情况，就是最大似然估计（Maximum likelihood estimation, 简称MLE）。在上例中，最有可能的情况是两面都是正面，即最大似然估计的参数值是1。
假设抛了100次硬币，出现了60次正面，我们最直观的感受是参数为0.6，虽然其他参数也能出现同样结果，但出现的概率是不一样的，我们希望找出能最大概率生成观测数据的参数作为估计结果

$\theta值$	概率
0.4	0.00002
0.5	0.01084
0.6	0.08122
0.7	0.00849

抛硬币事件是独立同分布的，我们设参数为 $\theta$ ，似然函数可以写做：
$L(\theta)=\theta^{60}(1-\theta)^{40} \tag{1}$

我们要做的就是找到一个参数，使得发生该事件的概率最大，即 $L(\theta)$ 取得最大值。所以求最大似然估计问题，就变成了求似然函数的极值。已知对数函数是单调的，为了简化连乘运算，可以对似然函数取对数，得：
$\begin{aligned} \ln L(\theta) &= \ln \theta^{60} + \ln (1-\theta)^{40}\\ &= 60 \ln \theta + 40 \ln (1-\theta) \end{aligned} \tag{2}$

为了取似然函数的极大值，需要令上式的导数为0，即：
$\begin{aligned} \ln L(\theta)^{\prime}&=\frac{60}{\theta}-\frac{40}{1-\theta}=0 \end{aligned} \tag{3}$

因此，解得参数 $\theta$ 为0.6。下图为该似然函数的几何图形，从图中也可以看出，当 $\theta$ =0.6时，似然函数的取值最大。
在这里插入图片描述

最大似然估计原理

最大似然估计是建立在极大似然原理的基础上的一个统计方法，是概率论在统计学中的应用。最大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。通过若干次实验，观察其结果，利用实验结果得到某个参数值能够使样本出现的概率为最大，则称为最大似然估计。
由于样本集D是独立同分布的，可以用来估计参数向量 $\theta$ 。样本集D记为：
$D=\{x_1,x_2,\ldots,x_n\} \tag{4}$

联合概率密度函数 $p(D|\theta)$ 称为相对于 $\{x_1,x_2,\ldots,x_n\}$ 的 $\theta$ 的似然函数：
$L(\theta)=p(D|\theta)=p(x_1,x_2,\ldots,x_N| \theta)=\prod_{i=1}^{N}p(x_i|\theta)\tag{5}$

为了便于计算，对似然函数取对数：
$H(\theta)=\ln L(\theta) \tag{6}$

最大似然估计问题可以写成
$\begin{aligned} \hat{\theta}_{ML} &= arg\ \underset{\theta}{max} \ H(\theta|D) \\ &=arg\ \underset{\theta}{max} \ \ln L(\theta|D) \\ &=arg\ \underset{\theta}{max} \sum_{i=1}^{N}\ln p(x_i|\theta) \end{aligned}\tag{7}$

这是一个关于 $\theta$ 的函数，求解这个优化问题通常对 $\theta$ 求导，得到导数为0的极值点。该函数取得最大值时， $\theta$ 的取值就是我们估计的模型参数。
所以，极大似然估计就是，利用已知的样本结果，反推最有可能导致这样结果的参数值。

最大似然估计举例

例 1 假定样本服从均匀分布[a,b]。则X的概率密度函数为
$\begin{cases} \frac{1}{b-a}&,a \leq x \leq b \\ 0&, 其它 \end{cases}\tag{8}$

对样本 $D=\{x_1,x_2,\ldots,x_n\}$ ，参数 $\theta=\langle a,b \rangle$ ，则似然函数为：
$\begin{cases} \frac{1}{(b-a)^n}&,a \leq x_i \leq b ,i=1,2,\ldots,n\\ 0&, 其它 \end{cases}\tag{9}$

很显然， $L (a, b)$ 作为a和b的二元函数是不连续的，不能使用导数来求解。必须从最大似然估计的定义出发，求 $L (a, b)$ 的最大值。为使 $L (a, b)$ 达到最大，b - a应该尽可能的小，而样本X在区间[a,b]内，所以b不能小于 $\max\{x_1,x_2,\ldots,x_n\}$ ，同理，a不能大于 $\min \{x_1,x_2,\ldots,x_n\}$ 。因此，a和b的最大似然估计为：
$a^*=\min \{x_1,x_2,\ldots,x_n\}\\ b^*=\max \{x_1,x_2,\ldots,x_n\} \tag{10}$

例 2 假定X是一个可以在实轴上取值的连续变量。样本服从高斯分布，X的一个高斯模型是 $P(x|\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\tag{11}$

其中 $\theta=\langle\mu,\sigma\rangle$ 。这个模型的参数空间是 $\Theta=R\times R^+$ ，即允许 $\mu$ 的取值为任意的实数，允许 $\sigma$ 的取值范围为任意的正实数。
似然函数为：
$L(\mu,\sigma^2)=\prod_{i=1}^N\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}=(2\pi\sigma^2)^{-\frac{n}{2}}e^{-\frac{1}{2\sigma^2}\sum\limits_{i=1}^{N}(x_i-\mu)^2}\tag{12}$

它的对数：
$\ln L(\mu,\sigma^2)=-\frac{n}{2}\ln(2\pi)-\frac{n}{2}\ln( \sigma^2)-\frac{1}{2\sigma^2}\sum\limits_{i=1}^{N}(x_i-\mu)^2\tag{13}$

求导，得方程组：
$\begin{cases} \frac{\partial \ln L(\mu,\sigma^2)}{\partial \mu}=\frac{1}{\sigma^2}\sum\limits_{i=1}^{n}(x_i-\mu) &= 0 \\ \frac{\partial \ln L(\mu,\sigma^2)}{\partial \sigma^2}=-\frac{n}{2\sigma^2}+\frac{1}{2\sigma^4}\sum\limits_{i=1}^{n}(x_i-\mu)^2 &= 0 \end{cases}\tag{14}$

联合解得：
$\begin{cases} \mu^* &=\overline x = \frac{1}{n}\sum\limits_{i=1}^{n}x_i \\ \sigma^{*2} &= \frac{1}{n}\sum\limits_{i=1}^{n}(x_i-\overline x)^2 \\ \end{cases}\tag{15}$
似然方程有唯一解 $(\mu^*,\sigma^{*2})$ ，而且它一定是最大值点，即参数 $(\mu,\sigma)$ 的最大似然估计为 $(\mu^*,\sigma^{*2})$ 。

总结

在样本结果已知的情况下，可以根据最大似然估计方法推测模型和参数。最大似然估计方法比其他估计方法更加简单；有收敛性，样本数增多时，收敛性会更好；模型选取正确的情况下，我们会得到较准确的估计值。
使用极大似然估计的重要前提是，训练样本的分布能代表样本的真实分布，每个样本集中的样本都是独立同分布的，并且有充分的训练样本。
求最大似然估计的一般步骤：
（1）写出似然函数；
（2）对似然函数取对数；
（3）求导数；
（4）解似然方程。