理解
- 结构风险最小化方法(基于VC维)
- 模型选择方法(通过加入先验知识,即偏置,来达到增大模型泛化能力)
- 可以从贝叶斯角度解释其常用方法
线性回归
- 参数惩罚
- 如:L1,L2(实现参考)
- shrinkage,岭回归=线性回归+shrinkage
基于树的模型
- 决策树中剪枝
- 提升树种的shrinkage
SVM
- 最大化margin
神经网络
- CNN中权值共享
- Weight decay
- Early Stopping
- Dropout
网络中的权重倾向于选择取值小的,因为这样可以使权重的变化范围相对小;良好正则化的神经网络倾向于选择参数少的模型,因为这种模型更加符合奥卡姆剃刀原理。关于这点的贝叶斯解释可以参考Theodoridis 2015,chapter 12.3
其他
- 数据集中加入噪声,其实增加了有效的数据量
- Early Stopping
- 当验证集上的验证误差随着训练次数增加而增加时,说明产生了过拟合,所以验证误差最小时的参数应该是Early Stopping策略所返回的模型参数。
参考
神经网络
1.Bengio etc,Deep Learning,2015
Shrinkage
1.Tibshirani R. Regression shrinkage and selection via the lasso[J]. Journal of the Royal Statistical Society. Series B (Methodological), 1996: 267-288.
2.Hoerl A E, Kennard R W. Ridge regression: Biased estimation for nonorthogonal problems[J]. Technometrics, 1970, 12(1): 55-67.
贝叶斯效应函数和奥坎姆剃刀原理
1.Theodoridis S. Machine learning: a Bayesian and optimization perspective[M]. Academic Press, 2015.