回归的目标是在给定输入的情况下,预测具有连续性质的目标值。线性回归中的线性是相对于参数而言的。
3.1 线性基函数模型(Linear Basis Function Models)
最简单的线性回归模型是: y(x,w)=w0+w1x1+⋯+wDxD ,很明显这个模型不足以表达复杂的模型,但是我们能够从这个模型中得出线性回归模型的一般形式
其中 ϕj(x) 即基函数,该函数可以是任意的函数,一般为非线性函数(为了提高模型的表达能力); w0 为偏置,假设我们令 ϕ0(x)=1 ,那么上式就可以简化成
整个模型对于输入是非线性的,而对于参数是线性的,这样就在提高模型表达能力的同时,也简化了模型。但是这种简化也导致了明显的限制,后面会详细介绍。
第一章中的曲线拟合,我们令 ϕj(x)=xj ,多项式基函数是输入变量的全局函数,如果一个输入变量的区域改变会影响其他的输入区域,比如 (2,1,1,1)→(2,1,1,9) ,但是如果采用如高斯基函数等局部函数的话,就不会出现这种情况。
常见的几类基函数:
1. 多项基函数: ϕj(x)=xj
2. 高斯基函数: ϕj(x)=exp{
−(x−μj)22s2}
3. sigmoid: ϕj(x)=σ(x−μjs),σ(a)=11+exp(−a)
3.1.1 最大似然和最小二乘法
假设目标值t由判别函数与一个额外的噪声给出: t=y(x,w)+ϵ , 其中噪声为一个均值为0、精度为 β 的高斯噪声。那么
假设我们令其损失函数为平方损失函数(square loss function),那么最优预测值就与条件均值一致
其中 p(t|x)=p(t|x,w,β) 。需要注意的是高斯噪声假设隐含t在给定x的条件分布是单峰的,这个性质可能对于某些应用不太合适。作为扩展,我们可以采用混合高斯分布。
X={ x1,…,xN} ,其对应的值为 t={ t1,…,tN} ,那么
为了使公式保持整齐,我们可以将上式写成
要使 p(t|w,β) 最大,那么
如果我们将偏置参数 w0 提出来,那么
由上面公式我们可以看出,偏置参数 w0 补偿平均目标值与基函数加权平均值的差异。
我们可以得到预测值与噪声的精度无关,但噪声的精度可以作为衡量预测值与目标值差异的一个标准。
3.1.2 最小二乘的几何形状
首先考虑坐标轴为 tn 的N维空间,那么 tn={ t1,…,tN}T 就是这个空间里的一个向量。那么 φj={ ϕj(x1),…