PRML Ch2: Probability Distributions 机器学习的概率基础

几种常用的概率分布

PRML的第二章首先介绍了几种机器学习与模式识别中常用的概率分布,每种概率分布的介绍R遵循了:1.随机变量的分布律或概率密度函数 2.随机变量的性质如期望、方差 3.使用最大似然方法估计概率分布的参数 4.所对应的共轭先验分布。
对于高斯分布,作者讲的更加详细,在性质中补充了对于高斯分布方差的分析,以及条件高斯分布和边缘高斯分布, 线性高斯模型的推导。除了最大似然估计,作者还介绍了用最大后验的方法估计高斯分布参数。但是实际上仍不外乎以上四点,即分布、性质、参数估计和共轭先验的介绍。
前3点很容易理解不再赘述,共轭先验引入的原因来自于模型参数后验概率的推导:

p(w|D)=p(D|w)p(w)p(D|w)p(w)dw,

其中 P(D|w) 是数据集 D 在参数w 下的似然函数。 如果把 p(w|D) 看成是关于 w 的函数,则不难看出p(w|D)p(D|w)p(w), 分母是关于 w 的常数,实际只是起到一个使p(w|D)的积分等于1的作用。所以我们只需关心 p(D|w)p(w) 即可。以高斯分布为例,假设我们已知方差 Σ , 要估计均值 μ P(D|μ) N 个高斯函数的连乘,其函数形式仍然是关于μ的高斯函数,这时如果我们假设 p(μ) 也是高斯分布,则 p(D|μ)p(μ) 的形式依然符合高斯分布,大大减小了以后的计算量。

估计高斯分布的均值我们可以使用高斯先验,估计伯努利分布的参数我们可以使用beta先验,那么其他函数呢?在本章的Exponential Family一章中可以看到,任何符合

p(x|η)=h(x)g(η)exp(ηTu(x))

的概率分布都可以有一个对应的先验分布。

如果使用最大似然估计,我们只需要最大化 P(D|w) 就可以对 w 的值做出点估计了,那么为什么还要计算P(w|D)呢?计算出 P(w|D) 的好处在于可以使用full beyesian formula写出这个关于 w 的后验概率进一步写出输入x后预测值的概率:

p(y|x,D)=p(y|x,w)p(w|D)dw

而这种通过对参数积分来求得预测值边缘分布的方法,正是贝叶斯方法相比于最大似然,能避免过拟合的原因所在。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值