第一章举了一个数字图像识别的例子来介绍了机器学习的几个重要概念:学习,训练集,测试集,监督学习,无监督学习,强化学习,回归,特征抽取,泛化性,等等。
1.1多项式拟合问题
我们很容易的想到了多项式拟合,这个是最naïve的想法。
y(x,w)=w0+w1x+w2x2+w3x3+...+wMxM=∑Mj=0wjxj
error function :最小化平方误差
E=12∑n=1N{y(xn,w)−tn}2
我们直接上实例:
- 当M很小,为0,我们发现poor-fit,貌似是under-fit来着
- 当M适中时,还是拟合的比较准确。
- 当M过大时,就出现了over-fitting.
我们原本期待M越大,结果应该就会更好。但这个时候,问题(over-fitting)出现了。于是,我们就想办法搞清楚问题所在,并尝试着解决问题。
问题出现,于是我们重现实验的环境(此时是参数w,这里不考虑x的原因是无论M为何值,x总是固定不变)。我们发现了,当M过大时,系数w的绝对值很大,可能是很大的正值或者很小的负值。那么当一个test data进来,计算E时,由于E对w是二次关系,所以当abs(w)很大时,E也会很大,就出现了过拟合现象。
解决问题:既然问题出现根源在于w的变化,我们如何试图约束w来使得问题减少其影响呢?
此时应该减小w,于是就想到了将w融进目标函数E,最小化E的同时减小w。
实验论证
实验结果表明当约束w值的系数 的变化,E会有所影响。
此时E表示为:
E(w)=12∑n=1N{y(xn,w)−tn}2+λ2||w||2
- 当 λ=0 就是上述的例子,不加大对w重要性的考量;
- 当 λ 在[0,1]区间的适当位置,整体效果还是不错的。
- 当 λ=1 时,又开始出现上述的问题。