本文次从贝叶斯的角度,观察和认识误差函数和正则化
误差函数
多项式拟合问题可以等价于误差最小化问题
曲线拟合
问题描述:曲线拟合问题的目标是:根据
N
个输入
贝叶斯的角度:用目标变量值的概率分布来表示不确定性。为此,可以假设,对于给定的
x
的值,对应的目标变量
该分布的方差的逆是精度(precision)参数 β
图示
拟合w,β
使用训练数据
X,T
,并通过最大似然来确定未知参数
w,β
似然函数:
对数似然:
考虑最大似然解,记作 wML ,是对于 w 的最大化得到的
拟合方法
- 忽略与
w 无关的项,上式最右2项。- 用一个正系数来缩放似然函数的对数,这样不会改变它关于
w
的最大值的位置,所以我们可以使用 1/2来代替
β/2 - 最小化似然函数的负对数,等价于最大化似然函数的对数
拟合结果
对于确定 w 的最大化似然等价于最小化平方和的误差函数
平方和误差函数是采用高斯噪声的最大似然的结果
用最大似然来确定高斯条件分布的精度参数
β :
1βML=1N∑n=1N{y(xx,wML)−tn}2最大化 β
- 首先确定控制均值的参数向量
wML , - 然后使用这个结果来确定精度 βML 。
-
确定好参数 w,β 后,就可以对新的值 x 做预测
最大后验
现在用概率模型,可以使用一种称为预测分布(predictive distribution)来表达
t 的概率分布,来代替一个简单的点估计。
方法:代入最大似然参数
p(t|x,wML,βML)=N(t|y(x,wML),β−1ML)
在多项式系数 w 上引入先验分布,考虑高斯分布:
p(w|α)=N(w|0,α−1I)=(α2π)(M+1)/2exp{−α2wTw} α 是分布的精度,
M+1 是 M 阶多项式的向量w 中元素个数。像 α 这样的控制分布的模型参数被称为超参数(hyperparameters)使用贝叶斯定理,
w 的后验分布,正比于先验分布和似然函数的乘积:
p(w|X,T,α,β)∝p(T|X,w,β)p(w|α)对于给定的数据集,可以通过找到最可能的 w 值来确定
w ,即最大化后验分布。最大化后验概率就是最小化下式:
β2∑n=1N{y(xn,w)−tn}2+α2wTw结论:最大化后验概率等价于最小化正则化的平方和误差函数
正则化参数为 λ=α/β
- 首先确定控制均值的参数向量
- 用一个正系数来缩放似然函数的对数,这样不会改变它关于
w
的最大值的位置,所以我们可以使用 1/2来代替