极大似然估计

行者yy

于 2021-08-04 10:32:33 发布

阅读量629

点赞数

分类专栏：机器学习文章标签：机器学习统计学

本文链接：https://blog.csdn.net/qq_40848423/article/details/119378415

版权

机器学习专栏收录该内容

10 篇文章 2 订阅

订阅专栏

文章目录

0.极大似然估计

理解：确定合适的参数使得模型对样本的解释性最强。似然的过程就是由样本实际推测模型参数的过程。

以下我们分别考虑总体属于离散型和连续型两种情况下的似然函数及其求解方法。

1.离散型

若总体 $X$ 属于离散型，其分布律 $P\{X=x\}=p(x;\theta)$ ， $\theta\in \Theta$ 的形式为已知。

其中

$x$ 是已知的样本值。
$\theta$ 为待估参数， $\Theta$ 是 $\theta$ 可能取值的范围。
$p(x;\theta)$ 表示在参数取值为 $\theta$ 的前提条件下， $X = x$ 发生的概率，它是一个条件概率。

设 $X_1,X_2,\cdots,X_n$ 是来自 $X$ 的样本，则 $X_1=x_1,X_2=x_2,\cdots,X_n=x_n$ 同时发生的概率为 $\prod_{i=1}^{n}p(x_i;\theta)$
$L(\theta)=L(x_1,x_2,\cdots,x_n;\theta)=\prod_{i=1}^{n}p(x_i;\theta),\theta \in \Theta \tag{1}$
它是关于 $\theta$ 的函数，随 $\theta$ 的取值而变化 $，L(\theta)$ 称为样本的似然函数。

似然过程：固定样本观测值 $x_1,x_2,\cdots,x_n$ ，在 $\theta$ 取值的可能范围 $\Theta$ 内挑选使似然函数 $L(x_1,x_2,\cdots,x_n;\theta)$ 达到最大的参数值 $\hat{\theta}$ ,作为参数 $\theta$ 的估计值。
$\hat{\theta}={\underset {\theta \in \Theta}{\operatorname{arg\,max}}}\,L(x_1,x_2,\cdots,x_n;\theta) \tag{2}$
这样得到的 $\hat{\theta}$ 与样本值 $x_1,x_2,\cdots,x_n$ 有关，常记为 $\hat{\theta}(x_1,x_2,\cdots,x_n)$ ，称为参数 $\theta$ 的极大似然估计值。

2.连续型

若总体 $X$ 属于连续型，其概率密度 $f(x;\theta),\theta\in \Theta$ 的形式已知，

同理设 $X_1,X_2,\cdots,X_n$ 是来自 $X$ 的样本，则 $X_1,X_2,\cdots,X_n$ 的联合密度为 $\prod_{i=1}^{n}f(x_i;\theta)$

设 $x_1,x_2,\cdots,x_n$ 是相应于样本 $X_1,X_2,\cdots,X_n$ 的一个样本值，则随机点 $(X_1,X_2,\cdots,X_n)$ 落在点 $(x_1,x_2,\cdots,x_n)$ 的邻域（边长分别为 $dx_1,dx_2,\cdots,dx_n$ 的n维立方体）内的概率近似地为
$\prod_{i=1}^{n}f(x_i;\theta)dx_i\\ =\prod_{i=1}^{n}f(x_i;\theta)\,\prod_{i=1}^{n}dx_i \tag{3}$
其值随 $\theta$ 的取值而变化，与离散型的情况一样，我们取 $\theta$ 的估计值 $\hat{\theta}$ 使概率取到最大值但因为 $\prod_{i=1}^{n}dx_i$ 不随 $\theta$ 而变，故只需考虑似然函数 $L(\theta)$ 的最大值。
$L(\theta)=L(x_1,x_2,\cdots,x_n;\theta)=\prod_{i=1}^{n}f(x_i;\theta),\theta \in \Theta \tag{4}$
同理，参数 $\theta$ 的极大似然估计值为
$\hat{\theta}={\underset {\theta \in \Theta}{\operatorname{arg\,max}}}\,L(x_1,x_2,\cdots,x_n;\theta) \tag{5}$

3.求解过程

在很多情形下， $p(x;\theta)$ 和 $f(x;\theta)$ 关于 $\theta$ 可微，这时 $\hat{\theta}$ 可从方程
$\frac{d}{d\theta}L(\theta)=0 \tag{6}$
解得。

因为式（1）和式（4）两边同时取对数不改变函数的单调性，所以 $L(\theta)$ 与 $lnL(\theta)$ 在同一 $\theta$ 处取得极值。因此， $\theta$ 的极大似然估计也可以由如下方程求得。
$\frac{d}{d\theta}ln\,L(\theta)=0 \tag{7}$

4.示例

设 $X\sim b(1,p)$ , $X$ 服从参数为 $p$ 的伯努利分布，它取1的概率为 $p$ ，取0的概率为 $1 - p$ 。 $X_1,X_2,\cdots,X_n$ 是来自 $X$ 的一个样本，试求参数 $p$ 的极大似然估计量

解：设 $x_1,x_2,\cdots,x_n$ 是相应于样本 $X_1,X_2,\cdots,X_n$ 的一个样本值。 $X$ 的分布律为
$P(X=x)=p^x(1-p)^{1-x},\quad x=0,1 \tag{8}$
似然函数为
$L(p)=\prod_{i=1}^{n}p^{x_i}(1-p)^{1-x_i}=p^{\sum_{i=1}^{n}x_i}(1-p)^{n-\sum_{i=1}^{n}x_i} \tag{9}$
两边同时取对数得
$ln\,L(p)=\sum_{i=1}^{n}x_i \,lnp+ (n-\sum_{i=1}^{n}x_i)ln(1-p) \tag{10}$
令
$\frac{d}{dp}ln\,L(p)=\frac{\sum_{i=1}^{n}x_i}{p}-\frac{n-\sum_{i=1}^{n}x_i}{1-p}=0 \tag{11}$
解得 $p$ 的极大似然估计值为
$\hat{p}=\frac{1}{n}\sum_{i=1}^{n}x_i \tag{12}$

5.拓展

对于含有多个未知参数 $\theta_1,\theta_2,\cdots,\theta_k$ 的情况，似然函数为 $L(\theta_1,\theta_2,\cdots,\theta_k)$ ，同单参数求解类似，我们分别对参数 $\theta_i$ 求偏导并令其偏导为0
$\frac{\partial}{\partial \theta_i}L=0,i\in \{1,2,\cdots,k\} \tag{13}$
或令
$\frac{\partial}{\partial \theta_i}ln\,L=0,i\in \{1,2,\cdots,k\} \tag{14}$
求解方程组(13)或(14)，即可得到各未知参数 $\theta_i$ 的极大似然估计值。

行者yy

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
极大似然估计

0.极大似然估计**理解：**确定合适的参数使得模型对样本的解释性最强。似然的过程就是由样本实际推测模型参数的过程。以下我们分别考虑总体属于离散型和连续型两种情况下的似然函数及其求解方法。1.离散型若总体XXX属于离散型，其分布律P{X=x}=p(x;θ)P\{X=x\}=p(x;\theta)P{X=x}=p(x;θ)，θ∈Θ\theta\in \Thetaθ∈Θ的形式为已知。其中xxx是已知的样本值。θ\thetaθ为待估参数，Θ\ThetaΘ是θ\thetaθ可能取值的范围。
复制链接

扫一扫

专栏目录