概率论复习 – ML vs. MAP vs. Bayesian Inference

最新推荐文章于 2024-02-17 21:40:35 发布

LB_莫贺延碛

最新推荐文章于 2024-02-17 21:40:35 发布

阅读量3.5k

点赞数 1

分类专栏：机器学习数学

机器学习同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

9 篇文章 0 订阅

订阅专栏

转自:http://www.xperseverance.net/blogs/2012/11/1396/

距离上次好好看这些概念大概半年过去了，很不幸，真的把他们忘记了。果真是不用则费，即使是简单的概念。

这次要写下来，以后再忘记则看看就容易回忆起来，事实上我现在觉得不太可能再忘记了……

参考资料：

《统计学完全教程》、《PR&ML》、《Parameter estimation for text analysis》

1. 极大似然估计（Maximum likelihood estimation）

假设有一堆独立同分布数据

X1,…,Xn

，其PDF为

p(x;θ) ，其中

θ

为模型参数，则其似然函数为：

Ln(θ)=∏i=1np(Xi;θ)

而极大似然估计就是要找到参数

θ

，使得似然函数的值最大。这意思就是找到一个参数

θ ，使得使用分布

p(x;θ) 来估计这一堆数据

Xi

的效果最好。

为啥捏，因为假设X都是离散值的情况下，

Ln(Xi;θ)

表达的含义是：从参数

θ 通过模型

p(x;θ) 产生这一堆数据的概率（把所有单个数据产生的概率乘起来就是产生这一堆数据的概率）。所以

p(x;θ)=Pθ(x={Xi}) ，那么如果当有两个参数

θ1 和

θ2 时，

Pθ1(x={Xi})>Pθ2(x={Xi}) ，则说明

θ1 更好的描述了这组数据，因此要找到一个

θ

使得整似然函数的值最大！

所以只要将似然函数对

θ

求导，就可以找到这样的

θ

。

例子：求N次伯努利分布的最大似然估计：

Bern(x|μ)=μx(1−μ)1−x

L(X|μ)=∏i=1NμXi(1−μ)1−Xi=μS(1−μ)N−S

，其中

S=∑i=1NXi

将

logL(X|μ)

对

μ 求导得

Sμ−N−S1−μ=0

得

μ̂ N=1NS=X¯N

2. 极大后验估计（Maximum a posteriori estimation）

极大后验估计中加入了一些先验知识，它最大化的是一个后验函数。具体来说，因为贝叶斯定律：

p(θ|x)=p(x|θ)p(θ)p(x)

那么极大后验估计就是要求：

θ̂ MAP=argmaxθ p(x|θ)p(θ)=argmaxθ{∑Xilog p(Xi|θ)+log p(θ)}

可见，极大后验估计中相对于最大似然估计，多了 log p(θ)

，也就是先验的影响。这一点在Beta分布的后验估计上就能看出来，由于这部分已经写在了这里，所以就不再赘述。

3. 贝叶斯推断（Bayesian Inference）

前面的MAP是一个点估计，只估计似然函数达到最大点的情况下，参数 θ

的值。Bayesian inference extends the MAP approach by allowing a distribution over the parameter set

θ

instead of making a direct estimate. Not only encodes this the maximum(a posteriori) value of the data-generated parameters, but it also incorporates expectation as another parameter estimate as well as variance information as a measure of estimation quality or confidence. ——《Parameter estimation for text analysis》

具体来说，给定数据X和需要求的参数 θ

，贝叶斯推断需要求出一个具体的分布：

p(θ|X)=P(X|θ)P(θ)/P(X)

这里和MAP的区别就在于，MAP忽略了P(X)因为它是常量，对于MAP的过程：求导后再求等于0来获得最好的 θ

，这个常量是没有用的。但是贝叶斯推断要的是整个

p(θ|X) 的分布，所以P(X)这个normalisation term是需要被求出来的。在获得具体的分布之后，所要求的参数值可以通过估计期望或方差得到。

LB_莫贺延碛

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
概率论复习 – ML vs. MAP vs. Bayesian Inference

转自:http://www.xperseverance.net/blogs/2012/11/1396/距离上次好好看这些概念大概半年过去了，很不幸，真的把他们忘记了。果真是不用则费，即使是简单的概念。这次要写下来，以后再忘记则看看就容易回忆起来，事实上我现在觉得不太可能再忘记了……参考资料：《统计学完全教程》、《PR&ML》、《Parameter estimation for
复制链接

扫一扫

专栏目录

LB_莫贺延碛 CSDN认证博客专家 CSDN认证企业博客

码龄10年

84: 原创

19万+: 周排名

95万+: 总排名

17万+: 访问

: 等级

2537: 积分

16: 粉丝

42: 获赞

24: 评论

107: 收藏

私信

关注

热门文章

分类专栏

ACM 84篇
贪心 1篇
动态规划 9篇
线性表 10篇
树 15篇
图 8篇
bfs 7篇
dfs 10篇
线段树&树状数组 3篇
组合数学 5篇
数论 4篇
数学 9篇
杂题 10篇
==============
机器学习 10篇
数字图像处理 8篇
python(numpy) 3篇
=============
SSH 2篇
操作系统 4篇
NLP 1篇

最新评论

LBP 源码分析
元气少女缘结神: 我觉得意义不该是这样？？，与https://blog.csdn.net/wd1603926823/article/details/127517925 这里分析的原理不同
LBP 源码分析
元气少女缘结神: VARLBP_函数中插值得到采样点n的数值t，delta中保存的是当前采样点n与前n-1个采样点均值之间的差值即看当前采样点与之前得到的采样点均值相差多大diff(n,n-1)，mean中计算的是当前n个采样点的均值，那么_m2中计算的是diff(n,n-1)*diff(n,n) 的累加从代码解释上是这样。但从意义上来说_m2计算的是(当前采样点n与前n-1次采样点均值之差)*(当前采样点n与这n次采样点均值之差) 这个乘积的累加？！为何是这样？
神经网络时间复杂度
xkqjs1988: 缺少加法运算吧
KM算法详解+模板
m0_46410148: 同问
栈帧详解
十八度的天空: 怎么判断出一个栈帧的大小？？如果方法里面没有参数的话，这个空栈帧大小是多少？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。