1、丢弃一些不能帮助我们正确预测的特征。可以是手工选择保留哪些特征,或者使用一些模型选择的算法来帮忙(例如PCA)
2、正则化。保留所有的特征,但是减少参数的大小(magnitude)。
为防止正则化程度太高或者太小,我们需要选择合适的λ,通常是0~10之间的呈现2倍关系的值(比如0,0.01,0.02,0.04,0.08,0.15,0.32,0.64,1.28,2.56,5.12,10)。
选择λ的方法为:
1、使用训练集训练出12个不同程度正则化的模型
2、用12个模型分别对交叉验证集计算的出交叉验证误差
3、选择得出交叉验证误差最小的模型
4、运用步骤3中选择模型对测试集计算得出推广误差。