极大似然估计学习笔记

最新推荐文章于 2022-10-29 15:08:46 发布

yougwypf1991

最新推荐文章于 2022-10-29 15:08:46 发布

阅读量1.1k

点赞数

分类专栏：机器学习人工智能文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/kangkermit/article/details/108079952

版权

人工智能同时被 2 个专栏收录

24 篇文章 0 订阅

订阅专栏

机器学习

23 篇文章 0 订阅

订阅专栏

概念

1 概率和统计：概率是已知模型和参数，推数据。统计是已知数据，推模型和参数；
2 极大似然估计(Maximum likelihood estimation，简称MLE)：俗理解来说，就是利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值，换句话说，极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”；
3 极大似然估计的前提假设：所有的采样都是独立同分布的。

似然函数始末

在散型的情形下，随机变量 $X$ 的概率分布是已知的，但是该分布的参数 $\theta$ 未知，需要我们通过一定方法估计。举一个例子：

现有三个不标准的硬币，其中第一枚抛出后正面朝上的概率为 $\frac{2}{5}$ ，第二枚硬币抛出后正面朝上的概率为 $\frac{1}{2}$ ，第三枚抛出后正面朝上的概率为 $\frac{3}{5}$ 。取出其中一枚硬币，抛掷20次，其中正面朝上的次数为13次，请问取出的是第几枚硬币。
答：分别计算三枚硬币抛掷20次，有13次正面朝上的概率：
第一枚：
$C_{20}^{13}(\frac{2}{5})^{13}(1-\frac{2}{5})^{20-13}=0.01456305$
第二枚：
$C_{20}^{13}(\frac{1}{2})^{13}(1-\frac{1}{2})^{20-13} = 0.07392883$
第三枚：
$C_{20}^{13}(\frac{3}{5})^{13}(1-\frac{3}{5})^{20-13} = 0.165882265$
所以这枚硬币更可能是第三枚。

我们的参数 $\theta$ 就是上例中待估计的正面向上的概率值。对应到上例，随机变量 $X$ 的取值 $x_i$ 表示抛掷 $k$ 次硬币，正面向上的次数，这个概率为：
$P(\{X=x_i\})=C_{k}^{x_i}\theta^{x_i}(1-\theta)^{k-x_i}$
其中， $x_i$ 、 $k$ 这些参数是已知的，参数 $\theta$ 是未知的，因此抛掷 $k$ 次硬币，有 $x_i$ 次向上的概率是一个关于参数 $\theta$ 的函数，写作：
$P(\{X=x_i\})=p(x_i;\theta)$
如果做 $n$ 次这样的实验，每一次实验中，都是连续抛掷 $k$ 次硬币，统计出现正面的次数，得到一系列样本： $x_1, x_2, x_3, ..., x_n$ ，这些样本的取值之间满足相互独立，那么这一串样本取得上述取值 ${X_1=x_1,X_2=x_2,X_3=x_3,...,X_n=x_n\}$ 的联合概率为：
$\prod_{i=1}^np(x_i;\theta)=p(x_1;\theta)\centerdot p(x_2;\theta)\centerdot p(x_3;\theta)\centerdot...\centerdot p(x_n;\theta)$
变换一下形式：
$L(\theta)=L(x_1, x_2, x_3, ..., x_n;\theta)=\prod_{i=1}^np(x_i;\theta)$
$L(\theta)$ 就是已知样本值 $x_1, x_2, x_3, ..., x_n$ 的似然函数，它描述的是取得这一串指定样本值的概率值，而这个概率值完全由未知参数 $\theta$ 决定。
如果 $X$ 是一个连续型随机变量，则：
$L(\theta)=L(x_1, x_2, x_3, ..., x_n;\theta)=\prod_{i=1}^nf(x_i;\theta)$

极大似然估计原理

思想

显然，似然函数 $L(\theta)=L(x_1, x_2, x_3, ..., x_n;\theta)$ 是指随机变量 $X$ 取到指定的一组样本值 $x_1, x_2, x_3, ..., x_n$ 时的概率大小。当未知的待估计参数 $\theta$ 取不同的值时，计算出来的该列车的值会发生变化。
例如，当 $\theta=\theta_0$ 时，似然函数 $L(x_1, x_2, x_3, ..., x_n;\theta_0)$ 的取值为0或趋近于0，那么意味着当 $\theta=\theta_0$ 时，随机变量 $X$ 取得这一组样本 $x_1, x_2, x_3, ..., x_n$ 的概率为0，即根本不可能或可能性极小得到这样一组样本值，那么就不应该取 $\theta_0$ 为参数估计值。
如果当 $\theta$ 取 $\theta_1$ 和 $\theta_2$ 两种不同的值时，似然函数的值 $L(x_1, x_2, x_3, ..., x_n;\theta_1) \gt L(x_1, x_2, x_3, ..., x_n;\theta_2)$ ，即 $\theta$ 取 $\theta_1$ 比取 $\theta_2$ 有更大的可能获得这一组样本值 $x_1, x_2, x_3, ..., x_n$ ，所以在选取估计值时更倾向于选取 $\theta_1$ 。
因此我们需要做的就是在未知参数 $\theta$ 的取值范围 $\Theta$ 中选取使得似然函数 $L(x_1, x_2, x_3, ..., x_n;\theta)$ 能够取得最大值的 $\hat{\theta}$ ，作为未知参数的估计值，由于 $\hat{\theta}$ 使得似然函数取值达到最大，因此 $\hat{\theta}$ 就是未知参数 $\theta$ 的极大似然估计。

计算

在给定概率模型和一组相互独立的观测样本 $x_1, x_2, x_3, ..., x_n$ 的基础之上，求使得似然函数 $L(\theta)=L(x_1, x_2, x_3, ..., x_n;\theta)=\prod_{i=1}^np(x_i;\theta)$ 取得最大值的未知参数 $\theta$ 的取值(连续情况类似)。
那么，就直接对似然函数求导，使得导数为0的 $\theta$ 的取值，就是我们要找的极大似然估计值 $\hat{\theta}$ 。由于函数 $g (x)$ 和函数 $l n (g (x))$ 的单调性时一致的，并且 $L(\theta)$ 的式子都是连乘，所以将其转换成 $ln(L(\theta))$ :
$ln(L(\theta))=ln(\prod_{i=1}^np(x_i;\theta))=\sum_{i=1}^nln(p(x_i;\theta))$
此时在对该函数求导，如果上式有唯一解，并且还是最大值点，那么那就是我们要求的极大似然估计值。
更一般的，对于多参数情况：
$ln(L(\theta_1,\theta_2,...,\theta_k))=ln(\prod_{i=1}^np(x_i;\theta_1,\theta_2,...,\theta_k))=\sum_{i=1}^nln(p(x_i;\theta_1,\theta_2,...,\theta_k))$
然后对于每一个待估计的未知参数 $\theta_i$ ，都求偏导数，并令其为零，得到如下方程式：
$\begin{cases} \frac{\partial lnL}{\partial \theta_1}=0 \\ \frac{\partial lnL}{\partial \theta_2}=0 \\ \ \centerdot \centerdot \centerdot \\ \frac{\partial lnL}{\partial \theta_k}=0 \end{cases}$
解出该方程即可。

需要注意的是极大似然估计值可能不存在，并且如果存在也有可能它的值不唯一。可以参考下面两个图：
MLE不存在
如果极大似然函数 $L(\theta)$ 在极大值处不连续，一阶导数不存在，则 MLE 不存在。

MLE不唯一的情况。

yougwypf1991

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
极大似然估计学习笔记

概念1 概率和统计：概率是已知模型和参数，推数据。统计是已知数据，推模型和参数；2 极大似然估计(Maximum likelihood estimation，简称MLE)：俗理解来说，就是利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值，换句话说，极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”；3 极大似然估计的前提假设：所有的采样都是独立同分布的。似然函数始末在散型的情形下，随机变量XXX的概率分布是已知的，但是该分布的参数θ
复制链接

扫一扫