机器学习|点估计-极大似然估计法（以联合密度、联合概率函数为例）| 20mins入门|概统学习笔记（二十六）

最新推荐文章于 2024-08-23 02:55:13 发布

Sany 何灿

最新推荐文章于 2024-08-23 02:55:13 发布

阅读量2.9k

点赞数 1

分类专栏：概统文章标签：概率论统计学机器学习

本文链接：https://blog.csdn.net/SanyHo/article/details/105251604

版权

概统专栏收录该内容

32 篇文章

订阅专栏

(二) 极大似然估计法

本质：这是在总体类型已知条件下使用的一种参数估计方法
引入问题：同学和猎人外出打猎，突然一只野兔出现，砰的一声，野兔被枪击倒，你猜是谁将野兔打倒的呢？

答：猎人击倒野兔的可能性大，因此应该是猎人打倒的
基本思想：选择一个参数使得实验结果具有最大概率。
原理：设 $X_1,X_2,...,X_n$ 是取自总体X的一个样本，样本的联合密度（连续型）或联合概率函数（离散型）为 $f(X_1,X_2,...,X_n;\theta)$ 。

当给定样本 $X_1,X_2,...,X_n$ 时，定义似然函数为：
$L(\theta)=f(X_1,X_2,...,X_n;\theta)$
$L(\theta)$ 看作参数 $\theta$ 的函数，它可作为 $\theta$ 将以多大可能产生样本值 $X_1,X_2,...,X_n$ 的一种度量。

极大似然估计法就是用使 $L(\theta)$ 达到最大值的 $\hat \theta$ 去估计 $\theta$ .
$L(\hat \theta)=max_{\theta}L(\theta)$
称 $\hat \theta$ 为 $\theta$ 的极大似然估计（Maximum Likelihood Estimation）
极大似然估计（MLE）的一般步骤：

（1）由总体分布导出样本的联合概率函数（或联合密度）；

（2）把样本联合概率函数（或联合密度）中自变量看成已知常数，而把参数 $\theta$ 看作自变量，得到似然函数 $L(\theta)$ ；

（3）求似然函数 $L(\theta)$ 的最大值点（常常转化为求 $lnL(\theta)$ 的最大值点），即 $\theta$ 的MLE；

（4）在最大值点的表达式中，用样本值带入就得参数的极大似然估计值

注意：

（1）求似然函数 $L(\theta)$ 的最大值点，可以应用微积分中的技巧。由于 $l n (x)$ 是 $x$ 的增函数， $lnL(\theta)$ 与 $L(\theta)$ 在 $\theta$ 的同一值处达到它的最大值，假定 $\theta$ 是一实数，且 $lnL(\theta)$ 是 $\theta$ 的一个可微函数。通过求解所谓的”似然方程“：
$\frac{dlnL(\theta)}{d\theta}=0$
可以得到 $\theta$ 的MLE。

若 $\theta$ 是向量，上述方程必须用似然方程组代替。

（2）用上述求导方法求参数的MLE有时行不通，这时要用极大似然原则(使似然函数 $L(\theta)$ 值最大)来求
e.g 以联合概率函数为例

设 $X_1,X_2,...,X_n$ 是取自总体 $X$ ~ $B (1, p)$ 的一个样本，求参数p的极大似然估计

第一步：由总体分布导出样本概率函数;

总体的分布： $X$ ~ $\quad \to \quad P(X=x)=p^x(1-p)^{1-x} \quad x=0,1$

于是，样本的联合分布为：

$P(X_1=x_1,X_2=x_2,...,X_n=x_n)=P(X_1=x_1)P(X_2=x_2),...,P(X_n=x_n)$

$=\prod_{i=1}^np^{x_i}(1-p)^{1-x_i}=p^{\sum_{i=1}^nx_i}(1-p)^{n-\sum_{i=1}^nx_i}$

第二步：把样本联合概率函数（或联合密度）中自变量看成已知常数，而把参数 $\theta$ 看作自变量，得到似然函数 $L(\theta)$ ;

似然函数为：
$L(p)=f(X_1,X_2,...,X_n;p)=\prod_{i=1}^np^{x_i}(1-p)^{1-x_i}=p^{\sum_{i=1}^nx_i}(1-p)^{n-\sum_{i=1}^nx_i}$
第三步：求似然函数 $L(\theta)$ 的最大值点（常常转化为 $lnL(\theta)$ 的最大值点），即 $\theta$ 的MLE；

对数似然函数为：
$lnL(p)=\sum^n_{i=1}x_iln(p)+(n-\sum_{i=1}^nx_i)ln(1-p)$
对p求导并令其为0，得
$\frac{dlnL(p)}{dp}=\frac{1}{p}\sum_{i=1}^nx_i-\frac{1}{1-p}(n-\sum_{i=1}^nx_i)=0 \\ \therefore p=\frac{1}{n}\sum_{i=1}^nx_i=\overline x$
第四步：在最大值点的表达式中，用样本值代入就得参数的极大似然估计值；

得 $\hat p=\frac{1}{n}\sum_{i=1}^nx_i=\overline x$ ，即为p的MLE。

于是，p的极大似然估计量为 $\hat p=\frac{1}{n}\sum_{i=1}^nX_i=\overline X$

这一估计量与矩估计量是相同的。
e.g 以联合密度函数为例

设 $X_1,X_2,...,X_n$ 是取自总体X的一个样本

$X$ ~ $f(x)=\begin{cases} \theta x^{\theta -1} , \quad 0<x<1 \\ 0, \quad 其它 \end{cases}$

其中 $\theta >0$ ，求 $\theta$ 的极大似然估计。

似然函数为
$L(\theta)=\prod_{i=1}^n\theta x_i^{\theta -1}=\theta^n(\prod_{i=1}^nx_i)^{\theta-1} \quad \quad (0<x_i<1, 1\leq i\leq n)$
对数似然函数为
$lnL(\theta)=nln\theta+(\theta-1)\sum^n_{i=1}lnx_i$
求导并令其为0
$\frac{dlnL(\theta)}{d\theta}=\frac{n}{\theta}+\sum_{i=1}^nlnx_i=0$
解得
$\hat \theta=-\frac{n}{\sum_{i=1}^nlnx_i}$
即为 $\theta$ 的MLE
e.g 以极大似然原则为例

设 $X_1，X_2,...,X_n$ 取自总体X的一个样本

$X$ ~ $f(x)=\begin{cases} \frac{1}{\theta}e^{-(x-\mu)/\theta}, \quad x\geq \mu \\ 0,\quad 其它 \end{cases}$

$\theta,\mu$ 为未知参数，其中 $\theta>0$ ，求 $\theta,\mu$ 的极大似然估计

解：似然函数为
$L(\theta,\mu)=\begin{cases}\prod_{i=1}^n\frac{1}{\theta}e^{-(x_i-\mu)/\theta} & x_i\geq \mu，i=1,2,...,n \\0, & 其它\end{cases}\\=\begin{cases}\frac{1}{\theta^n}e^{-\frac{1}{\theta}\sum_{i=1}^n(x_i-\mu)}, & min\space x_i\geq \mu \\0, & 其它\end{cases}$

对数似然函数为：
$lnL(\theta,\mu)=-nln\theta-\frac{1}{\theta}\sum_{i=1}^n(x_i-\mu)$
对 $\theta,\mu$ 分别求偏导并令其为0，
$\frac{\partial lnL(\theta,\mu)}{\partial \theta}=-\frac{n}{\theta}+\frac{1}{\theta^2}\sum_{i=1}^n(x_i-\mu)=0 \tag{1}$

$\frac{\partial lnL(\theta,\mu)}{\partial \mu}=\frac{n}{\theta}=0 \tag{2}$

由（1）得： $\theta=\frac{1}{n}\sum_{i=1}^nx_i-\mu$

由（2）得：无解！ $\frac{n}{\theta}>0$ 恒成立

用求导方法无法最终确定 $\theta、\mu$ ，用极大似然原则来求。

对 $min\space x_i\geq \mu,L(\theta,\mu)>0$ ，且是 $\mu$ 的增函数

故要使 $L(\theta,\mu)$ 达到最大，则 $\mu=min\space x_i$ ，即 $\mu$ 的MLE

根据定义域，有 $\mu^*=min_{1\leq i\leq n}x_i$ ，即 $\theta^*,\mu^*$ 为 $\theta,\mu$ 的MLE。

于是 $\theta^*=\frac{1}{n}\sum_{i=1}^nx_i-\mu^*$
极大似然估计的一个性质：

设 $\theta$ 的函数 $g=g(\theta)$ 是 $\theta$ 上的实值函数，且有唯一反函数。如果 $\hat \theta$ 是 $\theta$ 的MLE，则 $g(\hat \theta)$ 也是 $g(\theta)$ 的极大似然估计

e.g 一罐中装有白球和黑球，有放回地抽取一个容量为n的样本，其中有k个白球，求罐中黑球与白球之比R的极大似然估计。

解：设 $X_1,X_2,...,X_n$ 为所取样本
$X_i= \begin{cases} 1, & 取到白球 \\ 0, & 取到黑球 \end{cases}$
其中 $i = 1, 2, . . ., n$ ，则 $X_1,X_2,...,X_n$ 是取自 $B (1, p)$ 的样本，p是每次抽取时取到白球的概率，p未知，求p的MLE。

似然函数为
$L(p)=P(Y=k;p)=\begin{pmatrix}n \\ k\end{pmatrix}p^k(1-p)^{n-k}$
对数似然函数为
$lnL(p)=ln\begin{pmatrix}n\\ k\end{pmatrix}+ klnp+(n-k)ln(1-p)$
对p求导并令其为0
$\frac{d lnf(p)}{dp}=\frac{k}{p}-\frac{n-k}{1-p}=0$
解得
$\hat p =\frac{k}{n}$
对一切的 $0 < p < 1$ ，均有
$P(Y=k;\hat p) \geq P(Y=k;p)$
由极大似然估计的性质可得， $R=\frac{1-p}{p}$ 的MLE是
$\hat R=\frac{1-\hat p}{\hat p}= \frac{n}{k}-1$