最近在看《Pattern Regression and Machine Learning》,这里做一点笔记与感想。
背景:
考虑一个多项式拟合问题,如下图,绿线的方程是
sin(2πx)
sin
(
2
π
x
)
,蓝点是由绿线并加上噪音(这些噪音是默认符合正态分布的)生成。已知条件是由
N
N
个点构成的训练集,以及这些点对应的目标值
t=(t1,...tN)T
t
=
(
t
1
,
.
.
.
t
N
)
T
。现在的目标是:根据蓝点来拟合一条曲线,而绿线就是我们要最终拟合的效果。
问题:
假设我们最终要拟合的曲线是下面这个
M
M
阶方程,方程如下:
其中 w w 是该方程的系数,也是我们最终要求的对象;
通常我们会使用最小二乘法来做误差函数(
error function
,其是一种狭义的损失函数loss function
),其公式如下: 其中 tn t n 是这些点真实的数值,即上图中的蓝点,我们的目标就是求得一组 w w 使 E(w) E ( w ) 的值最小;
这似乎是一个天经地义的事情,但它是否是正确的?为什么正确?为什么不能直接将残差累加或是残差的绝对值来作为损失函数,如下式?
在使用最小二乘作为误差函数的时候,我们缺乏一个对公式的解释,下面本文就从概率论的角度来解释最小二乘背后的原因。
概率论解释最小二乘法:
这里有个假设:一个点的观测值符合以其真实值为均值,方差为 β−1 β − 1 ( β−1=σ2 β − 1 = σ 2 )的高斯分布;即是默认我们的误差是属于高斯分布的,写成数学表达式即:
如果每个 x x 都是独立同分布的,那么对于观测值的最大似然函数,即:
取对数似然函数,即:
即:
目标是求方程5的最大值,因为最终要求的是 w w ,因此最终就成了求公式6的最小值,即:
总结1:
利用最小二乘法求解本质上是求解似然函数的最大值,并且默认残差属于高斯分布。
概率论解释岭回归:
我们在上面的基础上增加一个先验概率:拟合函数的参数 w w 属于一个均值为0的多元高斯分布,本质是在限制 w w 中的各项相差不能太大,即:
总结2:
岭回归本质上是求解后验概率的最大值,并且添加的先验条件是参数 w w 符合多元高斯分布。
极大似然估计(MLE)和极大后验估计(MAP):
在用概率论解释最小二乘法的时候,我们使用的是MLE,即求出似然函数的最大值;在用概率论解释岭回归时,我们使用的是MAP,即求出后验概率的最大值。