最小二乘与岭回归的概率论解释

最近在看《Pattern Regression and Machine Learning》,这里做一点笔记与感想。

背景:

考虑一个多项式拟合问题,如下图,绿线的方程是 sin(2πx) sin ⁡ ( 2 π x ) ,蓝点是由绿线并加上噪音(这些噪音是默认符合正态分布的)生成。已知条件是由 N N 个点构成的训练集x=(x1,...xN)T,以及这些点对应的目标值 t=(t1,...tN)T t = ( t 1 , . . . t N ) T 。现在的目标是:根据蓝点来拟合一条曲线,而绿线就是我们要最终拟合的效果。
背景:多项式拟合

问题:

假设我们最终要拟合的曲线是下面这个 M M 阶方程,方程如下:

y(x,w)=w0+w1x+w2x2+...+wMxM=j=0Mwjxj1

其中 w w 是该方程的系数,也是我们最终要求的对象;
通常我们会使用最小二乘法来做误差函数(error function,其是一种狭义的损失函数loss function),其公式如下:

E(w)=12i=1N{y(xn,w)tn}22 E ( w ) = 1 2 ∑ i = 1 N { y ( x n , w ) − t n } 2 ( 方 程 2 )

其中 tn t n 是这些点真实的数值,即上图中的蓝点,我们的目标就是求得一组 w w 使 E(w) E ( w ) 的值最小;

这似乎是一个天经地义的事情,但它是否是正确的?为什么正确?为什么不能直接将残差累加或是残差的绝对值来作为损失函数,如下式?

E(w)=12i=1N|y(xn,w)tn| E ( w ) = 1 2 ∑ i = 1 N | y ( x n , w ) − t n |

在使用最小二乘作为误差函数的时候,我们缺乏一个对公式的解释,下面本文就从概率论的角度来解释最小二乘背后的原因。

概率论解释最小二乘法:

这里有个假设:一个点的观测值符合以其真实值为均值,方差为 β1 β − 1 ( β1=σ2 β − 1 = σ 2 )的高斯分布;即是默认我们的误差是属于高斯分布的,写成数学表达式即:

p(t|x,w,β)=(t|y(x,w),β1)3 p ( t | x , w , β ) = N ( t | y ( x , w ) , β − 1 ) ( 方 程 3 )

如果每个 x x 都是独立同分布的,那么对于观测值t的最大似然函数,即:
p(t|x,w,β)=n=1N(tn|y(xn,w),β1)4 p ( t | x , w , β ) = ∏ n = 1 N N ( t n | y ( x n , w ) , β − 1 ) ( 方 程 4 )

取对数似然函数,即:
lnp(t|x,w,β)=n=1NlnN(tn|y(xn,w),β1) ln ⁡ p ( t | x , w , β ) = ∑ n = 1 N ln N ( t n | y ( x n , w ) , β − 1 )

即:
lnp(t|x,w,β)=β2n=1N{y(xn,w)tn}2+N2lnβN2ln(2π)5 ln ⁡ p ( t | x , w , β ) = − β 2 ∑ n = 1 N { y ( x n , w ) − t n } 2 + N 2 ln ⁡ β − N 2 ln ⁡ ( 2 π ) ( 方 程 5 )

目标是求方程5的最大值,因为最终要求的是 w w ,因此最终就成了求公式6的最小值,即:
n=1N{y(xn,w)tn}26 ∑ n = 1 N { y ( x n , w ) − t n } 2 ( 公 式 6 )
这个竟然就是一开始的最小二乘法!

总结1:

利用最小二乘法求解本质上是求解似然函数的最大值,并且默认残差属于高斯分布。

概率论解释岭回归:

我们在上面的基础上增加一个先验概率:拟合函数的参数 w w 属于一个均值为0的多元高斯分布,本质是在限制 w w 中的各项相差不能太大,即:

p(w|α)=(w|0,α1I)=(α2π)(M+1)/2exp{α2wTw}7 p ( w | α ) = N ( w | 0 , α − 1 I ) = ( α 2 π ) ( M + 1 ) / 2 e x p { − α 2 w T w } ( 公 式 7 )
对公式7求对数,即:
lnp(w|α)=M+12lnα2πα2WTW8 l n p ( w | α ) = M + 1 2 l n α 2 π − α 2 W T W ( 公 式 8 )
由于(这是贝叶斯函数的另一种表达方式):
=9 后 验 概 率 = 先 验 概 率 ∗ 似 然 函 数 ( 公 式 9 )
因此:
p(w|x,t,α,β)p(t|x,w,β)p(w|α)10 p ( w | x , t , α , β ) 正 比 于 p ( t | x , w , β ) p ( w | α ) ( 公 式 10 )
现在我们可以通过已知条件,通过后验概率来求出最有可能的 w w ,即求公式10的最大值。取公式10左式的负对数,并将公式5和公式8带入,求公式10的最大值可等价于求下式的最小值,即:
β2n=1N{y(xn,w)tn}2+α2wTw β 2 ∑ n = 1 N { y ( x n , w ) − t n } 2 + α 2 w T w

总结2:

岭回归本质上是求解后验概率的最大值,并且添加的先验条件是参数 w w 符合多元高斯分布。

极大似然估计(MLE)和极大后验估计(MAP):

在用概率论解释最小二乘法的时候,我们使用的是MLE,即求出似然函数的最大值;在用概率论解释岭回归时,我们使用的是MAP,即求出后验概率的最大值。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值