减少过拟合方法:
- 交叉验证
- normalization
- 学习率调整,
- learning rate decay
- momentum动量调整
k折交叉检验:
正则化:
- 更小的权值w,从某种意义上说,表示网络的复 杂度更低,对数据的拟合刚刚好(这个法则也叫做奥卡姆剃刀)
- 添加正则化相当于参数的解空间添加了约束,限制了模型的复杂度
- L1正则化的形式是添加参数的绝对值之和作为结构风险项,L2正则化的形式添加参数的平方和作为结构风险项
- L1正则化鼓励产生稀疏的权重,即使得一部分权重为0,用于特征选择;L2鼓励产生小而分散的权重,