机器学习：LDA_数学基础_2：贝叶斯数学：先验分布的选择

最新推荐文章于 2021-08-03 20:07:03 发布

LandscapeMi

最新推荐文章于 2021-08-03 20:07:03 发布

阅读量5.1k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/mijian1207mijian/article/details/51622743

版权

机器学习专栏收录该内容

48 篇文章 0 订阅

订阅专栏

先验信息确定先验分布

主观概率
1. 对事件似然比
2. 专家意见
3. 历史资料

无信息先验分布

贝叶斯假设
1. 离散均匀分布
2. 有限区间的均匀分布
3. 广义分布

共轭先验分布

在已知样本的情况下，为了理论的需要，常常选择参数的分布为共轭先验分布

最大熵先验分布

无信息，意味着不确定性最大，故无信息先验分布应是熵最大所对应的分布

共轭先验下的后验分布

二项分布后验分布式二项分布
多项分布的后验是狄利克雷分布

最大似然估计，最大后验估计，贝叶斯估计

http://blog.163.com/silence_ellen/blog/static/1761042222014413112444364/

贝叶斯公式

$p(\theta|X)=\frac{p(X|\theta)p(\theta)}{p(X)}$

$后验概率=\frac{似然函数*先验概率}{全概率}$

最大似然MLE

似然函数取到最大值时的参数值作为估计值，似然函数可以写做
$l(\theta)=p(X|\theta)=\prod_{x\in X} p(X=x|\theta)$
最大似然估计问题可以写成
$\hat{\theta}_{MLE}=argmax_{\theta}\sum_{x\in X}logp(x|\theta)$
这是一个关于的函数，求解这个优化问题通常对求导，得到导数为0的极值点。该函数取得最大值是对应的的取值就是我们估计的模型参数。

最大后验概率(MAP)

最大后验估计与最大似然估计相似，不同点在于估计的函数中允许加入一个先验 $p(\theta)$ 也就是说此时不是要求似然函数最大，而是要求由贝叶斯公式计算出的整个后验概率最大，即
$\hat{\theta}_{MAP} = argmax_{\theta}\frac{p(X|\theta)p(\theta)}{p(X)}$
$=argmax_{\theta}p(X|\theta)p(\theta)$
$=argmax_{\theta}\{l(\theta)+logp(\theta)\}$
$=argmax_{\theta}\{\sum_{x\in X}logp(x|\theta)+logp(\theta)\}$

贝叶斯估计

http://blog.csdn.net/vividonly/article/details/50722042

贝叶斯估计和MAP挺像的，都是以最大化后验概率为目的。区别在于：

1）极大似然估计和MAP都是只返回了的预估值，就完事了

2）MAP在计算后验概率的时候，把分母p(X)给忽略了，在进行贝叶斯估计的时候则不能忽略

3）贝叶斯估计要计算整个后验概率的概率分布

$p(\theta|X) = \frac{p(X|\theta)p(\theta)}{p(X)}$
$p(X)=\int p(X|\theta)p(\theta)d\theta$

这里有一个技巧，对于一个特定的likehood，如果我们选择了一个先验概率分布，

通过上面两个公式的计算，得出的后验概率和先验概率是同分布的，这时候我们说这个先验分布是共轭先验。

可以举几个例子：

likehood为高斯分布，prior为高斯分布，则posterior也为高斯分布

likehood为伯努利分布（二项式分布），prior为beta分布，则posterior也为beta分布

likehood为多项式分布，prior为Dirichlet分布（beta分布的一个扩展），则posterior也为Dirichlet分布
根据上面的描述，在实践中我们往往会选择共轭先验来简化。在把后验概率推导为和先验概率一样的分布形式的时候，分母p(X)其实可以看做一个常数，往往充当了一个normalize，归一化的作用。
求解的时候，既然我们根据先验分布知道了后验是什么分布，那我们求出后验分布的期望值，即是需要估计的参数的值：
$p=E\{\theta|x\}$

知道了后验是什么分布，那么求这个分布的期望值应该不是什么难事。

结论
贝叶斯估计相对于最大后验估计的好处还在于，贝叶斯估计计算了整个后验概率的分布，从而也能求出其他一些比如分布的方差之类的值来供参考，比如计算出来方差太大的，我们可以认为分布不够好，从而把这个当做选择超参数的一个考虑因素。实际上，贝叶斯估计会比MAP把估计的结果往先验结果“拉”的程度还提高了一些，从而使估计结果更靠近先验结果。

beta分布和Dirichlet分布

二项分布的共轭是beta分布
多谢分布的共轭是Dirichlet分布

LandscapeMi

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习：LDA_数学基础_2：贝叶斯数学：先验分布的选择

先验信息确定先验分布主观概率对事件似然比专家意见历史资料无信息先验分布贝叶斯假设离散均匀分布有限区间的均匀分布广义分布共轭先验分布在已知样本的情况下，为了理论的需要，常常选择参数的分布为共轭先验分布最大熵先验分布无信息，意味着不确定性最大，故无信息先验分布应是熵最大所对应的分布共轭先验下的后验分布二项分布后验分布式二项分布多项分布的后验是狄利克雷分布最大似然估计
复制链接

扫一扫

专栏目录