几种常用的概率分布
PRML的第二章首先介绍了几种机器学习与模式识别中常用的概率分布,每种概率分布的介绍R遵循了:1.随机变量的分布律或概率密度函数 2.随机变量的性质如期望、方差 3.使用最大似然方法估计概率分布的参数 4.所对应的共轭先验分布。
对于高斯分布,作者讲的更加详细,在性质中补充了对于高斯分布方差的分析,以及条件高斯分布和边缘高斯分布, 线性高斯模型的推导。除了最大似然估计,作者还介绍了用最大后验的方法估计高斯分布参数。但是实际上仍不外乎以上四点,即分布、性质、参数估计和共轭先验的介绍。
前3点很容易理解不再赘述,共轭先验引入的原因来自于模型参数后验概率的推导:
p(w|D)=p(D|w)p(w)∫p(D|w)p(w)dw,
其中 P(D|w) 是数据集 D 在参数
估计高斯分布的均值我们可以使用高斯先验,估计伯努利分布的参数我们可以使用beta先验,那么其他函数呢?在本章的Exponential Family一章中可以看到,任何符合
p(x|η)=h(x)g(η)exp(ηTu(x))
的概率分布都可以有一个对应的先验分布。
如果使用最大似然估计,我们只需要最大化
P(D|w)
就可以对
w
的值做出点估计了,那么为什么还要计算
p(y|x,D)=∫p(y|x,w)p(w|D)dw
而这种通过对参数积分来求得预测值边缘分布的方法,正是贝叶斯方法相比于最大似然,能避免过拟合的原因所在。