PRML Ch2: Probability Distributions 机器学习的概率基础

最新推荐文章于 2021-09-01 07:36:53 发布

chenjunxuan

最新推荐文章于 2021-09-01 07:36:53 发布

阅读量575

点赞数

分类专栏： PRML读书笔记文章标签：机器学习函数模式识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_34781683/article/details/51449153

版权

PRML读书笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

几种常用的概率分布

PRML的第二章首先介绍了几种机器学习与模式识别中常用的概率分布，每种概率分布的介绍R遵循了：1.随机变量的分布律或概率密度函数 2.随机变量的性质如期望、方差 3.使用最大似然方法估计概率分布的参数 4.所对应的共轭先验分布。
对于高斯分布，作者讲的更加详细，在性质中补充了对于高斯分布方差的分析，以及条件高斯分布和边缘高斯分布，线性高斯模型的推导。除了最大似然估计，作者还介绍了用最大后验的方法估计高斯分布参数。但是实际上仍不外乎以上四点，即分布、性质、参数估计和共轭先验的介绍。
前3点很容易理解不再赘述，共轭先验引入的原因来自于模型参数后验概率的推导:

p (w | D) = p ( D | w ) p ( w ) \int p ( D | w ) p ( w ) d w,

$p(w|D) = \frac{p(D|w)p(w)}{\int p(D|w)p(w)dw},$
其中

P(D|w) $P(D|w)$ 是数据集

D $D$ 在参数

w $w$ 下的似然函数。如果把

p(w|D) $p(w|D)$ 看成是关于

w $w$ 的函数，则不难看出

p(w|D)∝p(D|w)p(w) $p(w|D) \propto p(D|w)p(w)$ , 分母是关于

w $w$ 的常数，实际只是起到一个使

p(w|D) $p(w|D)$ 的积分等于1的作用。所以我们只需关心

p(D|w)p(w) $p(D|w)p(w)$ 即可。以高斯分布为例，假设我们已知方差

Σ $\Sigma$ , 要估计均值

μ $\mu$ ，

P(D|μ) $P(D|\mu)$ 是

N $N$ 个高斯函数的连乘，其函数形式仍然是关于

μ $\mu$ 的高斯函数，这时如果我们假设

p(μ) $p(\mu)$ 也是高斯分布，则

p(D|μ)p(μ) $p(D|\mu)p(\mu)$ 的形式依然符合高斯分布，大大减小了以后的计算量。

估计高斯分布的均值我们可以使用高斯先验，估计伯努利分布的参数我们可以使用beta先验，那么其他函数呢？在本章的Exponential Family一章中可以看到，任何符合

p (x | η) = h (x) g (η) e x p (η T u (x))

$p(x|\mathbf{\eta}) = h(x)g(\eta)exp(\eta^{T}u(x))$
的概率分布都可以有一个对应的先验分布。

如果使用最大似然估计，我们只需要最大化 $P(D|w)$ 就可以对 $w$ 的值做出点估计了，那么为什么还要计算 $P(w|D)$ 呢？计算出 $P(w|D)$ 的好处在于可以使用full beyesian formula写出这个关于 $w$ 的后验概率进一步写出输入 $x$ 后预测值的概率：

p (y | x, D) = \int p (y | x, w) p (w | D) d w

$p(y|x, D) = \int p(y|x, w)p(w|D) dw$
而这种通过对参数积分来求得预测值边缘分布的方法，正是贝叶斯方法相比于最大似然，能避免过拟合的原因所在。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。