机器学习: 最小二乘与贝叶斯估计

最新推荐文章于 2024-01-05 00:53:19 发布

weixin_30345577

最新推荐文章于 2024-01-05 00:53:19 发布

阅读量593

点赞数

文章标签：人工智能数据结构与算法

原文链接：http://www.cnblogs.com/mtcnn/p/9412485.html

版权

在线性回归中，我们最常用到的是最小二乘法，给定一组样本 S={xi},i=1,2,...N 和目标值 t={t1,t2,...tN},
我们希望找到一种映射关系 y(x,w)=wTx, 最小二乘法就是通过求解如下的目标函数来求 w:

E = 1 2 \sum i = 1 N (t i - y (x i, w)) 2

接下来我们从贝叶斯估计出发，探讨最小二乘与贝叶斯估计中最大似然估计和最大后验概率估计的关系。因为 y(x,w) 只是目标值t 的近似估计，所以两者满足如下的关系:

t = y (x, w) + ϵ

如果我们假设 ϵ 是满足均值为0, precision (精确度)为 β的高斯分布，这里β即为方差的倒数。那么我们有:

p (t | x, w, β) = N (t | y (x, w), β - 1)

进一步假设样本分布满足 i.i.d 即独立同分布，那么这组样本的联合概率满足:

p (t | S, w, β) = \prod i = 1 N N (t i | w T x i, β - 1)

利用最大似然估计，可以得到:

ln p (t | S, w, β) = \sum i = 1 N ln (N (t i | w T x i, β - 1))

= N 2 ln β - N 2 ln (2 π) - β E D (w)

而ED(w)就是:

E D (w) = 1 2 \sum i = 1 N (t i - w T x i) 2

可以看到，高斯分布下的最大似然估计就是最小二乘。我们可以求出最优的w, 假设对应最大似然估计下的最优解为 wML, 可以进一步求出最大似然估计下的精确度β为:

1 β M L = 1 N \sum i = 1 N (t i - w T M L x i) 2

那么给定一个新的x, 其对应的预测值t 满足如下的高斯分布，

p (t | x, w M L, β M L) = N (t | y (x, w M L), β - 1 M L)

显然，当 t=y(x,wML) 的时候，所对应的概率是最大的。从最大似然估计出发，我们可以得到最小二乘。

接下来，考虑最大后验概率估计，给 w 一个先验分布，假设w 的分布也是满足高斯形式:

p (w | α) = N (w | 0, α - 1 I) = (α 2 π) (M + 1) / 2 e x p (- α 2 w T w)

根据贝叶斯定理，我们知道后验概率与先验概率和似然函数之积是成一定比例的:

p (w | t, S, α, β) \propto p (t | w, S, β) p (w | α)

利用最大似然估计，对 p(t|w,S,β)p(w|α) 取对数，去掉无关项，我们可以得到如下的表达式:

E (w) = β 2 \sum i = 1 N (t i - w T x i) 2 + α 2 w T w

令 λ=αβ, 那么上式可以写成:

E (w) = 1 2 \sum i = 1 N (t i - w T x i) 2 + λ 2 w T w

这个就是带正则项的最小二乘，这个可以减轻over fitting的问题。所以最大后验概率估计对应的就是带正则项的最小二乘。

所以，通过高斯分布，可以将贝叶斯估计与最小二乘联系起来。

>
C.M.Bishop, “Pattern Recognition and Machine Learning”.

转载于:https://www.cnblogs.com/mtcnn/p/9412485.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。