参数估计之最大似然估计法

最新推荐文章于 2024-05-01 18:25:48 发布

积跬步以至千里。

最新推荐文章于 2024-05-01 18:25:48 发布

阅读量2.2k

点赞数 1

分类专栏：概率论与数理统计文章标签：概率论统计学机器学习

本文链接：https://blog.csdn.net/SpiritedAway1106/article/details/112691737

版权

概率论与数理统计专栏收录该内容

14 篇文章 31 订阅

订阅专栏

最大似然估计是一种统计参数估计方法，通过找到使样本观测值概率最大的参数值来估计未知参数。本文通过离散型和连续型随机变量的例子详细解释了最大似然估计的原理，并展示了如何通过计算对数似然方程来求解估计值。在两个示例中，分别对应泊松分布和正态分布的参数估计，均得到与矩估计一致的结果。

摘要由CSDN通过智能技术生成

1. 最大似然估计定义

引例1

已知一个箱子里有黑白共100个球，颜色且比例为99：1，从中随机取一个球，发现是黑色，问箱子里有多少个黑球？

解，设事件 $A$ 表示取到黑球，事件 $B$ 表示取到白球，已知100个球中，颜色比例为 $99 : 1$ ，如果假设黑球有99个，则 $P (A) = 0.99$ 如果假设黑球有 $1$ 个，则 $P (A) = 0.01$ ，现在我们随机取了一个球，是黑色，即事件 $A$ 发生，我们很直观的认为箱子中黑球应该有99个，因为有一个事实是，概率大的事件比概率小的时间更容易发生。或者说，箱子里更像是有99个黑球，这个更像就是“最大似然“的思想。

极大似然原理的直观想法是，一个随机试验如果有若干个可能的结果 $A,B,C,\cdots.$ 如果在一次试验中，结果 $A$ 出现，则一般认为 $A$ 出现的概率最大，或者说在试验的很多可能条件中，认为应该是使事件 $A$ 发生的概率最大的条件
数学定义(建议跳过阅读，通过例子更好理解)
- 若总体 $X$ 属于离散型，其分布律 $P\{X=x\}=p(x;\theta),\theta \in \Theta$ 的形式已知， $\theta$ 为待估参数， $\Theta$ 是 $\theta$ 可能的取值范围。设 $X_1,X_2,\cdots,X_n$ 是来自 $X$ 的样本，则 $X_1,X_2,\cdots,X_n$ 的联合分布律为 $\prod\limits_{i=1}^np(x_i;\theta)$ ，又设 $x_1,x_2,\cdots,x_n$ 是相应于样本 $X_1,X_2,\cdots,X_n$ 的一个样本值，很容易知道，样本 $X_1,X_2,\cdots,X_n$ 取到观测值 $x_1,x_2,\cdots,x_n$ 的概率，即事件 $\{X_1=x_1,X_2=x_2,\cdots,X_n=x_n\}$ 发生的概率为 $L(\theta)=L(x_1,x_2,\cdots,x_n;\theta)=\prod\limits_{i=1}^np(x_i;\theta),\theta \in \Theta$ 这一概率随 $\theta$ 的取值而变化，它是 $\theta$ 的函数， $L(\theta)$ 称为样本的似然函数
- 若总体 $X$ 属于连续型，其概率密度 $f(x;\theta),\theta \in \Theta$ 的形式已知， $\theta$ 为待估参数， $\Theta$ 是 $\theta$ 可能的取值范围。设 $X_1,X_2,\cdots,X_n$ 是来自 $X$ 的样本，则 $X_1,X_2,\cdots,X_n$ 的联合分布律为 $\prod\limits_{i=1}^nf(x_i;\theta)$ ，又设 $x_1,x_2,\cdots,x_n$ 是相应于样本 $X_1,X_2,\cdots,X_n$ 的一个样本值，则随机点 $(X_1,X_2,\cdots,X_n)$ 落在点 $（x_1,x_2,\cdots,x_n)$ 的邻域(边长分别为 $dx_1,dx_2,\cdots,dx_n$ 的 $n$ 维立方体)内的概率近似地为 $\prod\limits_{i=1}^nf(x_i;\theta)dx_i$ 这一概率随 $\theta$ 的取值而变化，与离散型情况一样，我们取 $\theta$ 的估计值 $\hat{\theta}$ 使概率取得最大值，由于因子 $\prod\limits_{i=1}^ndx_i$ 不随 $\theta$ 而变，故只需考虑函数 $L(\theta)=L(x_1,x_2,\cdots,x_n;\theta)=\prod\limits_{i=1}^nf(x_i;\theta),\theta \in \Theta$ 的最大值，这里 $L(\theta)$ 称为样本的似然函数
- 若 $L(\theta)=L(x_1,x_2,\cdots,x_n;\hat{\theta})=\max\limits_{\theta \in \Theta} \prod\limits_{i=1}^nf(x_i;\theta)$ 则称 $\hat{\theta}(x_1,x_2,\cdots,x_n)$ 为 $\theta$ 的最大似然估计值，称 $\hat{\theta}(X_1,X_2,\cdots,X_n)$ 为 $\theta$ 的最大似然估计量
- 很多情况下， $p(x;\theta)$ 和 $f(x;\theta)$ 关于 $\theta$ 可微，这时 $\hat{\theta}$ 常从方程 $\frac{d}{d\theta}L(\theta)=0$ 解得。由于 $l n x$ 为增函数，因此 $L(\theta)$ 与 $lnL(\theta)$ 在同一个 $\theta$ 处取到极值，因此 $\theta$ 的最大似然估计可以从方程 $\frac{d}{d\theta}lnL(\theta)=0$ 求得，该方程被称为对数似然方程

2. 解最大似然估计值

最大似然估计的计算步骤很简单，用例子加以解释和说明

例1

总体 $X\sim \pi(\lambda)$ ， $x_1,x_2,\cdots,x_n$ 是来自总体的一个样本值，试求 $\lambda$ 的最大似然估计

解:
1. 写出总体的分布律或者密度函数
  
  $P\{X=k\} = \frac{\lambda^k}{k!}e^{-\lambda}$
2. 写出似然函数
  
  $L(\lambda) = \prod\limits_{k=1}^n\frac{\lambda^{x_k}}{x_k!}e^{-\lambda}$
3. 两边同时取 $l n$
  
  $\begin{aligned} lnL(\lambda) &= ln\prod\limits_{k=1}^n\frac{\lambda^{x_k}}{x_k!}e^{-\lambda} \\&= \sum\limits_{k=1}^nln\lambda^{x_k}+\sum\limits_{k=1}^nln\frac{1}{x_k!}+\sum\limits_{k=1}^nlne^{-\lambda} \\&= ln\lambda\sum\limits_{k=1}^nx_k - \sum\limits_{k=1}^nln{x_k!} -n\lambda \end{aligned}$
4. 写出对数似然方程
  
  $\begin{aligned}\frac{d}{d\lambda}lnL(\lambda)= \frac{1}{\lambda}\sum\limits_{k=1}^nx_k -n = 0 \end{aligned}$
5. 解出参数值
  
  $\lambda = \frac{1}{n}\sum\limits_{k=1}^nx_k = \overline{X}$
该估计值和矩估计的值保持一致
例2

总体 $X\sim N(\mu,\sigma^2)$ ， $x_1,x_2,\cdots,x_n$ 是来自总体的一个样本值，试求 $\mu,\sigma^2$ 的最大似然估计

解:
1. 写出总体的分布律或者密度函数
  
  $f(x;\mu,\sigma^2) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
2. 写出似然函数
  
  $L(\mu,\sigma^2) = \prod\limits_{k=1}^n\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_k-\mu)^2}{2\sigma^2}}$
3. 两边同时取 $l n$
  
  $\begin{aligned} lnL(\mu,\sigma^2) &= ln\prod\limits_{k=1}^n\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_k-\mu)^2}{2\sigma^2}} \\&= \sum\limits_{k=1}^nln\frac{1}{\sqrt{2\pi}}-\frac{1}{2}\sum\limits_{k=1}^nln{\sigma^2}-\sum\limits_{k=1}^n\frac{(x_k-\mu)^2}{2\sigma^2} \\&= nln\frac{1}{\sqrt{2\pi}} -\frac{n}{2}ln{\sigma^2}-\sum\limits_{k=1}^n\frac{(x_k-\mu)^2}{2\sigma^2} \end{aligned}$
4. 写出对数似然方程，这里有多个参数，则似然方程组为
  
  $\begin{cases}\frac{\partial lnL(\mu,\sigma^2)}{\partial\mu} = \frac{1}{\sigma^2}\sum\limits_{k=1}^n(x_k-\mu) = 0 \\ \frac{\partial lnL(\mu,\sigma^2)}{\partial\sigma^2} = -\frac{n}{2\sigma^2}+\frac{\sum\limits_{k=1}^n(x_k-\mu)^2}{2\sigma^4} = 0 \end{cases}$
5. 解出参数值
  
  $\mu = \frac{1}{n}\sum\limits_{k=1}^nx_k = \overline{X}$
  
  $\sigma^2 = \frac{1}{n}\sum\limits_{k=1}^n(x_k-\mu)^2 = \overline{X}$
该估计值和矩估计的值保持一致