极大似然估计和贝叶斯估计

最新推荐文章于 2024-09-19 16:41:34 发布

macan_dct

最新推荐文章于 2024-09-19 16:41:34 发布

阅读量632

点赞数 5

文章标签：机器学习极大似然估计贝叶斯估计

本文链接：https://blog.csdn.net/weixin_42211626/article/details/100918848

版权

极大似然估计和贝叶斯估计

前言

极大似然估计在贝叶斯算法、EM算法和高斯混合聚类等算法中均有用到，其重要性显而易见。

极大似然估计

1、概述

极大似然估计有什么用？
答：已知某个随机样本 $x_{1},x_{2},...,x_{n})$ 符合某种概率分布，但是其中某个具体参数 $\theta$ 不知道这时可以用极大似然估计得到 $\widehat {\theta}$ ，该 $\theta$ 使这个随机样本出现的概率最大

2、计算过程

用个例子说明极大似然估计：在掷硬币实验中估计出现正面向上的概率 $\theta$
解释下该问题：
令 $x_{i}$ 表示第i次掷硬币的结果， $X=\{x_{1},x_{2},...,x_{n}\}，$ 很明显 $x_{i}$ 服从二项分布：
$x_{i}\sim b(1,\theta)=\left\{\begin{matrix} 1&,正面 \\ 0 &,反面 \end{matrix}\right.\tag{1}$
那么二项分布的概率密度函数可以写为：
$P(X=x)=\theta^{x}(1-\theta)^{1-x}\tag{2}$
极大似然估计的思想是：假设已经有了参数 $\theta$ ，然后根据实验结果写出出现这组结果的概率，为了使该结果出现的概率最大，即最大化似然函数（假设实验服从独立同分布）：
$\underset{\theta}{max}L(\theta)=P(X=x_{1}|\theta)*P(X=x_{2}|\theta)*...*P(X=x_{n}|\theta)\tag{3}$

把(2)带入(3)中：
$\underset{\theta}{max}L(\theta)=\underset{\theta}{max}\prod_{i=1}^{n}\theta^{x_{i}}(1-\theta)^{1-x_{i}}\tag{4}$
求(4)式的最大化等价于求其对数的最大化（将连乘转换成累加）：
$\underset{\theta}{max}L(\theta)=\underset{\theta}{max}lnL(\theta)=\underset{\theta}{max}ln[\prod_{i=1}^{n}\theta^{x_{i}}(1-\theta)^{1-x_{i}}]=\underset{\theta}{max}\prod_{i=1}^{n}[ln\theta^{x_{i}}+ln(1-\theta)^{1-x_{i}}]\\=\underset{\theta}{max}\left \{ \sum_{i=1}^{n}x_{i}ln\theta +(n-\sum_{i=1}^{n}x_{i})ln(1-\theta)\right \}\tag{5}$
(5)式对 $\theta$ 求导，置0：
$\frac{\partial lnL(\theta)}{\partial \theta}=\frac{\sum_{i=1}^{n}x_{i}}{\theta}-\frac{n-\sum_{i=1}^{n}x_{i}}{1-\theta}=0\tag{6}$
那么就可以得到 $\theta$ 的极大似然估计结果：
$\widehat{\theta}=\frac{\sum_{i=1}^{n}x_{i}}{n}\tag{7}$

3、总结

总结下极大似然估计（套路）：

写出似然函数 $L(\theta)=\prod_{i=1}^{n}P(x_{i}|\theta)$
对似然函数取对数 $lnL(\theta)$
对 $\theta$ 求偏导 $\frac{\partial lnL(\theta)}{\partial\theta}$
解似然方程 $\frac{\partial lnL(\theta)}{\partial\theta}=0$

贝叶斯估计

1、计算过程

极大似然估计是完全根据样本信息对参数 $\theta$ 做出估计，而在贝叶斯估计中要用的不止样本信息，还有先验信息，也就是说，在试验之前对参数 $\theta$ 有一个大概的判断，
还是用上面的例子：在掷硬币实验中估计出现正面向上的概率 $\theta$
先验信息就是这个参数 $\theta$ 是在0和1之间的，在0.5附近取值的概率比较高，0和1之间的均匀分布，可以用贝塔分布表示，那么先验信息的概率密度函数为：
$\pi(\theta)=\frac{\tau (\alpha+\beta)}{\tau (\alpha)+\tau(\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}\tag{8}$
关于 $\alpha$ 和 $\beta$ 怎样赋值这里不讨论。
假设试验得到一组样本 ${x_{1},x_{2},..,x_{n}\}$ ，那么就需要用样本信息来调整先验信息
根据贝叶斯公式：
$P(A|B)=\frac{P(B|A)P(A)}{P(B)}\tag{9}$
基于样本信息得到的参数 $\theta$ 的概率密度：
$P(\theta|x_{1},x_{2},...,x_{n})=\frac{P(\theta,x_{1},x_{2},..,x_{n})}{P(x_{1},x_{2},..,x_{n})}=\frac{P(\theta)P(x_{1}|\theta)P(x_{2}|\theta)...P(x_{n}|\theta)}{P(x_{1},x_{2},..,x_{n})}\\=\frac{\pi(\theta)P(x_{1}|\theta)P(x_{2}|\theta)...P(x_{n}|\theta)}{P(x_{1},x_{2},..,x_{n})}\\=\frac{\pi(\theta)P(x_{1}|\theta)P(x_{2}|\theta)...P(x_{n}|\theta)}{\int P(\theta,x_{1},x_{2},..,x_{n})d\theta}\tag{10}$
(10)式中去掉与 $\theta无关的项，（分母对\theta 求完积分后就与\theta无关了——去掉，分子的\pi(\theta)中\frac{\tau (\alpha+\beta)}{\tau (\alpha)+\tau(\beta)}的也与\theta无关——去掉）：$
$P(\theta|x_{1},x_{2},...,x_{n})\overset{正比于}{\propto}\theta^{\alpha-1}(1-\theta)^{\beta-1}\prod_{i=1}^{n}\theta^{x_{i}}(1-\theta)^{1-x_{i}}\\=\theta^{\sum_{i=1}^{n}x_{i}+\alpha-1}(1-\theta)^{n-\sum_{i=1}^{n}x_{}i+\beta-1}\tag{11}$
可以看出(11)也是贝塔分布的形式，其参数是 $\sum_{i=1}^{n}x_{i}+\alpha$ 和 $\sum_{i=1}^{n}x_{i}+\alpha$ ，为了找到参数 $\theta$ ，就要在后验分布中找到使得概率密度最大的，现在推出 $\theta$ 的后验分布是一个贝塔分布，贝塔分布的最大是其众数，那么就能够得到：
$\widehat{\theta}=\frac{\sum_{i=1}^{n}x_{i}+\alpha-1}{n+\alpha+\beta-2}\tag{12}$

2、总结

总结下贝叶斯估计（套路）：

写出似然函数 $L(\theta)=P(\theta|D)=\frac{P(D|\theta)P(\theta)}{P(D)}$
对似然函数取对数 $lnL(\theta)$
对 $\theta$ 求偏导 $\frac{\partial lnL(\theta)}{\partial\theta}$
解似然方程 $\frac{\partial lnL(\theta)}{\partial\theta}=0$

对比

极大似然估计和贝叶斯估计对比
观察式(7)和(12)：

$极大似然估计结果：\widehat{\theta}=\frac{\sum_{i=1}^{n}x_{i}}{n}$
$贝叶斯估计结果：\widehat{\theta}=\frac{\sum_{i=1}^{n}x_{i}+\alpha-1}{n+\alpha+\beta-2}$
现在令样本个数区域无穷大: $n\propto inf$ ，那么在贝叶斯估计结果中， $\alpha$ 和 $\beta$ 可忽略。即
$贝叶斯估计结果：\widehat{\theta}=\frac{\sum_{i=1}^{n}x_{i}}{n}，n\propto inf$
那么可以看出，极大似然和贝叶斯估计结果是相同的，由此看出但样本量足够大时，由自己定义的先验信息就微不足道了。
那么为什么还用贝叶斯估计呢？
前面考虑样本足够多时，由极大似然估计得到的结果和贝叶斯估计得到的结果是相同的，那么现在考虑样本数量少的情况，假设当前只有一个样本n=1，那么极大似然估计的结果不是等于0就是等于1，非常极端；但此时对于贝叶斯估计，

$假设这一个样本取值为0，那么贝叶斯估计的结果就是：\frac{\alpha-1}{\alpha +\beta -1}$
$假设这一个样本取值为1，那么贝叶斯估计的结果就是：\frac{\alpha}{\alpha +\beta -1}$
所以当样本少时贝叶斯估计就不会像极大似然那么极端。

极大似然估计	贝叶斯估计
未知参数 $\theta$ 是一个定值	未知参数 $\theta$ 本身服从一定的概率分布
目标：未知参数 $\theta$ 使得数据集发生的概率最大	给定数据集的情况下，哪一个 $\theta$ 发生的概率最大