差不多数学系列----最大似然估计

最新推荐文章于 2024-06-14 10:32:25 发布

沃·夏澈德

最新推荐文章于 2024-06-14 10:32:25 发布

阅读量3.2k

点赞数 2

分类专栏：差不多数学文章标签：最大似然概率论贝叶斯

本文链接：https://blog.csdn.net/aaalswaaa1/article/details/108974960

版权

差不多数学专栏收录该内容

12 篇文章 0 订阅

订阅专栏

最大似然估计

--------------------------------------------------手动分割线--------------------------------------------------------------

先来一段百度复制来的原理，有趣的是百度百科上最大似然估计和极大似然估计居然是两个不同的页面，尽管说的是同一个东西：

给定一个概率分布D，假定其概率密度函数（连续分布）或概率聚集函数（离散分布）为fD，以及一个分布参数θ，我们可以从这个分布中抽出一个具有n个值的采样X1,X2,...,Xn，通过利用fD，我们就能计算出其概率：

$P=(x_1,x_2,...,x_n)=f_D(x_1,x_2,...,x_n|\theta)$

但是，我们可能不知道θ的值，尽管我们知道这些采样数据来自于分布D。那么我们如何才能估计出θ呢？一个自然的想法是从这个分布中抽出一个具有n个值的采样X1,X2,...,Xn，然后用这些采样数据来估计θ。

一旦我们获得，我们就能从中找到一个关于θ的估计。最大似然估计会寻找关于 θ的最可能的值（即，在所有可能的θ取值中，寻找一个值使这个采样的“可能性”最大化）。这种方法正好同一些其他的估计方法不同，如θ的非偏估计，非偏估计未必会输出一个最可能的值，而是会输出一个既不高估也不低估的θ值。

要在数学上实现最大似然估计法，我们首先要定义可能性：

$lik(\theta)=f_D(x_1,x_2,...,x_n|\theta)$

并且在θ的所有取值上，使这个函数最大化。这个使可能性最大的值即被称为θ的最大似然估计。

--------------------------------------------------手动分割线--------------------------------------------------------------

以上可能比较抽象，以下是我到处看别人博客整理的差不多版。

先贴参考：

https://zhuanlan.zhihu.com/p/26614750

https://blog.csdn.net/zouxy09/article/details/8537620

https://blog.csdn.net/zengxiantao1994/article/details/72787849

感谢以上大佬无私分享的学习笔记

--------------------------------------------------↓正文开始↓--------------------------------------------------------------

最大似然估计的通俗理解

怎么来的

在已知先验概率以及类条件概率的情况下，我们可以套用贝叶斯公式来计算后验概率。贝叶斯公式如下

$P(w|x)=\frac{p(x|w)p(w)}{p(x)}$

别人那抄来的一个例子：

已知：在夏季，某公园男性穿凉鞋的概率为1/2，女性穿凉鞋的概率为2/3，并且该公园中男女比例通常为2:1，问题：若你在公园中随机遇到一个穿凉鞋的人，请问他的性别为男性或女性的概率分别为多少？

从问题看，就是上面讲的，某事发生了，它属于某一类别的概率是多少？即后验概率。

设： w_1 =男， w_2= 女，x=穿凉鞋

由已知可得：

先验概率 p(w_1)=2/3,p(w_2)=1/3

类条件概率 p(x|w_1)=1/2,p(x|w_2)=2/3

男女间穿不穿凉鞋是相互独立的，所以 p(x)=p(x|w_1)p(w_1)+p(x|w_w)p(w_2)=5/9

（若只考虑分类问题，只需要比较后验概率的大小，取值并不重要）。

由贝叶斯公式得：

$p(w_1|x)=\frac{p(x|w_1)p(w_1)}{p(x)}=\frac{1/2*2/3}{5/9}=3/5$

$p(w_2|x)=\frac{p(x|w_2)p(w_2)}{p(x)}=\frac{2/3*1/3}{5/9}=2/5$

问题来了

截止到这里，还没有涉及到最大似然估计，只是普通的贝叶斯而已，但是，从什么可以看出，贝叶斯所需的已知条件是较多的，但在大多数情况下，我们是不能得到这些先验概率以及类条件概率的。那么在 p(w_i),p(x|w_i) 未知，仅有有限条样本数据时，我们要怎么办呢。

先验概率还能根据样本来估计，类条件概率再估计就不是那么准了。

解决的办法就是，把估计完全未知的概率密度 p(x|w_i) 转化为估计参数。这里就将概率密度估计问题转化为参数估计问题。怎么估计呢，就是通过最大似然估计来估计。

是什么

最大似然估计是一种通过样本来估计模型参数的方法。

又是从别人那搬来的理解。

极大似然估计，通俗理解来说，就是利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值！

换句话说，极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。

极大似然估计中采样需满足一个重要的假设，就是所有的采样都是独立同分布的。

怎么做

由上可知，最大似然估计就是利用已知的样本结果，反推最有可能导致这种结果的参数值，从而把样本服从的分布给蒙出来。

设有样本集 $D={x_ 1,...,x_n}$ ，来估计参数向量 $\theta$ 。

似然函数：联合概率密度函数 $p(D|\theta)$ 称为相对于D的 $\theta$ 的似然函数

$l(\theta)=p(D|\theta)=p(x_1,...,x_n|\theta)=\prod _{i=1}^{n}p(x_i|\theta)$

如果 $\hat{\theta}$ 是参数空间中能使似然函数 $l(\theta)$ 最大的θ值，那么它就是“最可能“的参数值，那么它就是θ的最大似然估计量。它是样本集的函数，记作：

。

那么具体要怎么求出 $\hat{\theta}$ 呢。

可以看见，似然函数是连乘的，为了便于分析，可以将其定义为对数似然函数，从而变成连加的。

$H(\theta)=lnL(\theta)=ln\prod _{i=1}^{n}p(x_i|\theta)=\sum _{i=1}^{n}ln(p(x_i|\theta))$

接下来其实就是求最大值，多个参数的情况下则是求各个参数的偏导，方程组的解就是似然函数的最值。

下面是别处抄来的具体例子：

设样本服从正态分布 $N(\mu,\sigma^2 )$ ，则似然函数为：

$L(\mu,\sigma^2)=\prod_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}e^{\frac{(x_i-\mu)^2}{2\sigma^2}}=(2\pi\sigma^2)^{-\frac{n}{2}}e^{\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2}$

他的对数：

$lnL(\mu,\sigma^2)=-\frac{n}{2}ln(2\pi)-\frac{n}{2}ln(\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2$

求导，得方程组：

$\left\{\begin{matrix} \frac{\delta ln(\mu,\sigma^2)}{\delta\mu}=\frac{1}{\mu^2}\sum_{i=1}^n(x_i-\mu)=0\\ \frac{\delta lnL(\mu,\sigma^2)}{\delta \mu^2}=-\frac{n}{2\sigma^2}+\frac{1}{2\sigma^4}\sum_{i=1}^n(x_i-\mu)^2=0 \end{matrix}\right.$

联合解得：

$\left\{\begin{matrix} \mu^*=\bar{x}=\frac{1}{n}\sum_{i=1}^nx_i\\ \sigma^{*2}=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2 \end{matrix}\right.$

--------------------------------------------手动分割------------------------------------------------------------------------

总结：

求最大似然估计值的一般步骤：

1. 写出似然函数

2. 对似然函数取对数，并整理

3. 求导数，令导数为0，得到似然方程

4.解似然方程，得到的参数即为所求

沃·夏澈德

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
差不多数学系列----最大似然估计

最大似然估计--------------------------------------------------手动分割线--------------------------------------------------------------先来一段百度复制来的原理，有趣的是百度百科上最大似然估计和极大似然估计居然是两个不同的页面，尽管说的是同一个东西：给定一个概率分布D，假定其概率密度函数（连续分布）或概率聚集函数（离散分布）为fD，以及一个分布参数θ，我们可以从这个分布中抽出一个具有n个
复制链接

扫一扫