在博客最大似然估计中,通过简单的例子对最大似然估计原理有了一个直观的理解;在博客朴素贝叶斯分类器中,对贝叶斯公式有了一个粗浅的理解,而且我们知道了贝叶斯分类器原理就是最大后验概率估计。这篇博客主要是深入理解最大似然估计、最大后验概率估计、贝叶斯公式的数学原理和它们之间的联系。
基本概念理解
想要搞清楚上述几个原理,首先要弄明白概率、统计、概率函数和似然函数
- 概率
概率研究的是:模型和参数已知,预测模型产生某结果的概率。
- 统计
统计研究的和概率正好相反,统计已有数据(采样样本/实验结果),估计模型和模型的参数。
- 概率函数
对于函数,表示数据,表示模型参数。当已知为变量时,为概率函数,表示在已知概率分布模型的情况下,变量取不同值的概率(可以理解为产生不同结果的概率)
- 似然函数
对于函数,当未知已知时,为似然函数,表示对于不同模型参数,出现这个数据(结果)的概率
最大似然估计
现在假设已知,那么表示采样得到数据的概率,那么采样得到的联合概率就自然表示为:,由于每次采样是互不影响的(产生不同的结果是相互独立),最终联合概率就可以表示为:
但问题是是未知,只有数据,我们就是要求,最大似然估计的思想就是使得似然函数(联合概率)最大,使似然函数最大就是的最佳估计。
贝叶斯公式
通过之前的博客朴素贝叶斯分类器已经知道,贝叶斯公式可以简化为,那么贝叶斯公式有什么作用呢?如果你现在需要构建一个模型并求解,而而难以求解,于是通过贝叶斯公式转换为对求解(曲线救国)。
如果将X看做是数据,C看做是模型,那么贝叶斯公式可以表示成:后验概率=似然函数*先验概率。
最大后验概率估计
最大后验概率估计即对进行最大估计,而难以求解,于是通过贝叶斯公式转换为对进行最大估计,所以最大后验概率估计=最大似然估计*先验概率