贝叶斯公式的对数似然函数_极大似然估计和贝叶斯估计

最新推荐文章于 2024-07-01 23:43:04 发布

孙佳纯

最新推荐文章于 2024-07-01 23:43:04 发布

阅读量563

点赞数

文章标签：贝叶斯公式的对数似然函数

本文链接：https://blog.csdn.net/weixin_33614878/article/details/113722782

版权

本文介绍了极大似然估计和贝叶斯估计在统计推断中的应用，详细阐述了这两种参数估计方法的基本思想和数学描述。极大似然估计通过最大化样本出现的概率来估计参数，而贝叶斯估计则考虑参数的先验分布，通过后验分布的期望进行估计。文章还讨论了最大后验估计、共轭先验的概念，并提到了它们在机器学习中的作用和选择先验分布的主观性。

摘要由CSDN通过智能技术生成

极大似然估计(Maximum Likelihood Estimation，MLE)和贝叶斯估计(Bayesian Estimation)是统计推断中两种最常用的参数估计方法，二者在机器学习中的应用也十分广泛。本文将对这两种估计方法做一个详解。

考虑这样一个问题：总体

equation?tex=X 的概率密度函数为

equation?tex=f%28x%7C%5Cboldsymbol+%5Ctheta%29 ，观测到一组样本

equation?tex=%28X_1%2CX_2%2C%5Cdots%2CX_n%29%3D%28x_1%2Cx_2%2C%5Cdots%2Cx_n%29 ，需要估计参数

equation?tex=%5Cboldsymbol+%5Ctheta 。下面我们将采用不同的估计方法来求解这个问题。

1、极大似然估计

极大似然估计是典型的频率学派观点，它的基本思想是：待估计参数

equation?tex=%5Cboldsymbol+%5Ctheta 是客观存在的，只是未知而已，当

equation?tex=%5Cboldsymbol+%7B%5Chat+%5Ctheta%7D_%7Bmle%7D 满足“

equation?tex=%5Cboldsymbol+%5Ctheta%3D%5Cboldsymbol+%7B%5Chat+%5Ctheta%7D_%7Bmle%7D 时，该组观测样本

equation?tex=%28X_1%2CX_2%2C%5Cdots%2CX_n%29%3D%28x_1%2Cx_2%2C%5Cdots%2Cx_n%29 更容易被观测到“，我们就说

equation?tex=%5Cboldsymbol+%7B%5Chat+%5Ctheta%7D_%7Bmle%7D 是

equation?tex=%5Cboldsymbol+%5Ctheta 的极大似然估计值。也即，估计值

equation?tex=%5Cboldsymbol+%7B%5Chat+%5Ctheta%7D_%7Bmle%7D 使得事件发生的可能性最大。

下面给出极大似然估计的数学描述：

2、贝叶斯估计

贝叶斯估计是典型的贝叶斯学派观点，它的基本思想是：待估计参数

equation?tex=%5Cboldsymbol+%5Ctheta 也是随机的，和一般随机变量没有本质区别，因此只能根据观测样本估计参数

equation?tex=%5Cboldsymbol+%5Ctheta 的分布。

贝叶斯估计利用了贝叶斯公式，给出贝叶斯公式的数学描述：

$equation?tex=P%28B_i%7CA%29%3D%5Cfrac+%7BP%28B_i%29P%28A%7CB_i%29%7D%7BP%28A%29%7D%3D%5Cfrac+%7BP%28B_i%29P%28A%7CB_i%29%7D%7B%5Csum%5E%7Bn%7D_%7Bj%3D1%7D+P%28B_j%29P%28A%7CB_j%29%7D%5C%5C$

下面给出贝叶斯估计的数学描述：

$equation?tex=%5Cpi+%28%5Cboldsymbol+%5Ctheta%7C%5Cboldsymbol+x%29%3D%5Cfrac+%7Bf%28%5Cboldsymbol+x%7C%5Cboldsymbol+%5Ctheta%29%5Cpi+%28%5Cboldsymbol+%5Ctheta%29%7D%7Bm%28%5Cboldsymbol+x%29%7D%3D%5Cfrac+%7Bf%28%5Cboldsymbol+x%7C%5Cboldsymbol+%5Ctheta%29%5Cpi+%28%5Cboldsymbol+%5Ctheta%29%7D%7B%5Cint+f%28%5Cboldsymbol+x%7C%5Cboldsymbol+%5Ctheta%29%5Cpi+%28%5Cboldsymbol+%5Ctheta%29d%28%5Cboldsymbol+%5Ctheta%29%7D+%5C%5C+%5Cboldsymbol+%7B%5Chat+%5Ctheta%7D_%7Bbe%7D%3DE%5Cpi+%28%5Cboldsymbol+%5Ctheta%7C%5Cboldsymbol+x%29%5C%5C$

其中，

equation?tex=%5Cpi+%28%5Cboldsymbol+%5Ctheta%29 为参数

equation?tex=%5Cboldsymbol+%5Ctheta 的先验分布(prior distribution)，表示对参数

equation?tex=%5Cboldsymbol+%5Ctheta 的主观认识，是非样本信息，

equation?tex=%5Cpi+%28%5Cboldsymbol+%5Ctheta%7C%5Cboldsymbol+x%29 为参数

equation?tex=%5Cboldsymbol+%5Ctheta 的后验分布(posterior distribution)。因此，贝叶斯估计可以看作是，在假定

equation?tex=%5Cboldsymbol+%5Ctheta 服从

equation?tex=%5Cpi+%28%5Cboldsymbol+%5Ctheta%29 的先验分布前提下，根据样本信息去校正先验分布，得到后验分布

equation?tex=%5Cpi+%28%5Cboldsymbol+%5Ctheta%7C%5Cboldsymbol+x%29 。由于后验分布是一个条件分布，通常我们取后验分布的期望作为参数的估计值。

2.1、最大后验估计

在贝叶斯估计中，如果我们采用极大似然估计的思想，考虑后验分布极大化而求解

equation?tex=%5Cboldsymbol+%5Ctheta ，就变成了最大后验估计(Maximum A Posteriori estimation，MAP)：

$equation?tex=%5Cboldsymbol+%7B%5Chat+%5Ctheta%7D_%7Bmap%7D%3Darg+%5Cunderset+%7B%5Cboldsymbol+%5Ctheta%7D%7B%5Cmax%7D+%5Cpi+%28%5Cboldsymbol+%5Ctheta%7C%5Cboldsymbol+x%29%3Darg+%5Cunderset+%7B%5Cboldsymbol+%5Ctheta%7D%7B%5Cmax%7D+%5Cfrac+%7Bf%28%5Cboldsymbol+x%7C%5Cboldsymbol+%5Ctheta%29%5Cpi+%28%5Cboldsymbol+%5Ctheta%29%7D%7Bm%28%5Cboldsymbol+x%29%7D%3Darg+%5Cunderset+%7B%5Cboldsymbol+%5Ctheta%7D%7B%5Cmax%7D++%7Bf%28%5Cboldsymbol+x%7C%5Cboldsymbol+%5Ctheta%29%5Cpi+%28%5Cboldsymbol+%5Ctheta%29%7D%5C%5C$

由于

equation?tex=m%28%5Cboldsymbol+x%29 与

equation?tex=%5Cboldsymbol+%5Ctheta 无关，因此简化了计算。

作为贝叶斯估计的一种近似解，MAP有其存在的价值，因为贝叶斯估计中后验分布的计算往往是非常棘手的；而且，MAP并非简单地回到极大似然估计，它依然利用了来自先验的信息，这些信息无法从观测样本获得。

对上面的式子稍作处理：

equation?tex=%5Chat+%5Ctheta_%7Bmap%7D+%3D+arg+%5Cunderset+%7B%5Cboldsymbol+%5Ctheta%7D%7B%5Cmax%7D++%7Bf%28%5Cboldsymbol+x%7C%5Cboldsymbol+%5Ctheta%29%5Cpi+%28%5Cboldsymbol+%5Ctheta%29%7D%3Darg+%5Cunderset+%7B%5Cboldsymbol+%5Ctheta%7D%7B%5Cmax%7D++%28%5Clog+%7Bf%28%5Cboldsymbol+x%7C%5Cboldsymbol+%5Ctheta%29%2B+%5Clog+%5Cpi+%28%5Cboldsymbol+%5Ctheta%29%29%7D%5C%5C

如果将机器学习结构风险中的正则化项对应为上式的

equation?tex=%5Clog+%5Cpi+%28%5Cboldsymbol+%5Ctheta%29 ，那么带有正则化项的最大似然学习就可以被解释为MAP。当然，这并不是总是正确的，例如，有些正则化项可能不是一个概率分布的对数，还有些正则化项依赖于数据，当然也不会是一个先验概率分布。不过，MAP提供了一个直观的方法来设计复杂但可解释的正则化项，例如，更复杂的惩罚项可以通过混合高斯分布作为先验得到，而不是一个单独的高斯分布。

2.2、共轭先验

在贝叶斯估计中，如果选取先验分布

equation?tex=%5Cpi+%28%5Cboldsymbol+%5Ctheta%29 ，使得后验分布

equation?tex=%5Cpi+%28%5Cboldsymbol+%5Ctheta%7C%5Cboldsymbol+x%29 与

equation?tex=%5Cpi+%28%5Cboldsymbol+%5Ctheta%29 属于同一分布簇(即共轭分布)，则称

equation?tex=%5Cpi+%28%5Cboldsymbol+%5Ctheta%29 为似然函数

equation?tex=f%28%5Cboldsymbol+x%7C%5Cboldsymbol+%5Ctheta%29 的共轭先验。

共轭先验的选取有如下好处：a).符合直观，先验分布和后验分布应该是相同形式的；b).可以给出后验分布的解析形式；c).可以形成一个先验链，即现在的后验分布可以作为下一次计算的先验分布，如果形式相同，就可以形成一个链条。

常见的共轭先验有：Beta分布(二项分布)、Dirichlet分布(多项分布)。

很显然，共轭先验的选取很大程度上是基于数学理论的方便性，带有很强的主观色彩，而这也是饱受频率学派诟病的一点。频率学派认为，只有在先验分布有一种不依赖主观的意义，且能根据适当的理论或以往的经验决定时，才允许在统计推断中使用先验分布，否则就会丧失客观性。关于这些，读者可自行了解。此文来自笔者对自己以前分享过的一个PPT的二次整理，内容略有删减，感兴趣的读者可以直接查看PPT。

参考文献

[19] 《Deep Learning》(中译版)Ian Goodfellow等著

以上为本文的全部参考文献，对原作者表示感谢。

我的足迹