最(极)大似然估计

最新推荐文章于 2024-05-01 18:25:48 发布

geter_CS

最新推荐文章于 2024-05-01 18:25:48 发布

阅读量535

点赞数 1

分类专栏：机器学习文章标签：极大似然估计

本文链接：https://blog.csdn.net/geter_CS/article/details/84579448

版权

机器学习专栏收录该内容

21 篇文章 3 订阅

订阅专栏

参数估计是统计推断的基本问题，最大似然估计法是用于参数估计的一种常用方法。

点估计

通俗的说就是用一个样本来估计总体的分布的参数
定义：设总体 $X$ 的分布函数 $F(x;\theta)$ 形式已知， $\theta$ 是带估计参数。 $X_1,X_2,X_3,...X_n$ 是 $X$ 的一个样本， $x_1,x_2,x_3,...x_n$ 是相应的一个样本值。点估计问题就是要构造一个适当的统计量 $\hat{\theta}(X_1,X_2,X_3,...X_n)$ ，用其观察值 $\hat{\theta}(x_1,x_2,x_3,...x_n)$ 作为参数 $\theta$ 的近似值。我们称 $\hat{\theta}(X_1,X_2,X_3,...X_n)$ 为 $t h e t a$ 的估计量，称 $\hat{\theta}(x_1,x_2,x_3,...x_n)$ 为 $\theta$ 的估计值。

最大似然法

最大似然法是一种常用的构造估计量的方法
其主要思想是，对于一个随机变量，我们想要估计其统计分布的某个参数时，若已知了一组样本，那么我们就可以使用这组样本来估计这个参数。
若总体是离散变量，其分布律为 $P(X=x)=p(x;\theta)$ ，这里 $\theta$ 是待估计参数。 $X_1,X_2,X_3,...,X_n$ 是来自总体X的样本。这里构造的估计量是这组样本的联合概率分布(这里还是使用上面的符号)：
$L(\theta)=L(X_1,X_2,X_3...,X_n;\theta)=\prod_{i=1}^{n}p(X_i;\theta)$
若已知这组样本的一个样本值是 $x_1,x_2,...,x_n$ ，则上面的联合概率分布的估计值是：
$L(\theta)=L(x_1,x_2,x_3...,x_n;\theta)=\prod_{i=1}^{n}p(x_i;\theta)$
又称为似然函数。
若使用连续性随机变量其联合概率分布是：
$\prod_{i=1}^{n}f(x_i;\theta)dx_i$
其中 $f(x_i;\theta)$ 为概率密度函数， $dx_i$ 为领域长度。由于 $dx_i$ 与 $\theta$ 无关，所以只需考虑概率密度函数。所以似然函数为：
$L(\theta)=L(x_1,x_2,x_3...,x_n;\theta)=\prod_{i=1}^{n}f(x_i;\theta)$
又于先入为主观念，最大似然法认为当前已知的样本，具有最大的概率发生。反过来说也就是，最大似然法认为， $\theta$ 的估计值是使得当前已知样本具有最大概率发生（即 $X_1=x_1,X_2=x_2,X_3=x_3...,X_n=x_n$ ）的那个 $\theta$ 值,记作 $\hat{\theta}$ :
$L(x_1,x_2,x_3...,x_n;\hat{\theta})=\begin{matrix} &max\\ &\theta \end{matrix} L(x_1,x_2,x_3...,x_n;\theta)$
这样得到的 $\hat\theta$ 称为 $\theta$ 最大似然估计值。
这样最大似然估计值的求解就变为了一个求极值的过程。即从：
$\frac{d}{d\theta}L(\theta)=0$ 或者
$\frac{d}{d\theta}lnL(\theta)=0$ 求得
通常后者比前者更容易求解，称为对数似然方程， $ln(L(\theta))$ 称为对数似然函数。似然函数和对数似然函数可以乘上常数，任然是似然函数。

参考书1：概率论与数理统计浙江大学第四版
参考书2：统计学习方法李航

geter_CS

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
最(极)大似然估计

参数估计是统计推断的基本问题，最大似然估计法是用于参数估计的一种常用方法。点估计通俗的说就是用一个样本来估计总体的分布的参数定义：设总体XXX的分布函数F(x;θ)F(x;\theta)F(x;θ)形式已知，θ\thetaθ是带估计参数。X1,X2,X3,...XnX_1,X_2,X_3,...X_nX1,X2,X3,...Xn是XXX的一个样本，x1,x2,x3,...xnx_1,...
复制链接

扫一扫