10.Regularization
正则化有效防止模型的过拟合
10.1 l2 l 2 正则化 —邻回归(Ridge regression)—Tikhonov 正则化
假设待正则的网络层参数为 w w ,正则式为:
将正则项加入目标函数
又叫权重衰减(weight decay)
10.2 l1 l 1 正则化
假设待正则的网络层参数为 w w ,正则式为:
除了约束参数量级, l1 l 1 正则化能起到使参数更稀疏的作用。
稀疏化,使优化后的参数一部分为0,另一部分为非零实值
非零实值的部分起到选择重要参数或特征维度的作用,同时起到了去除噪声的作用
l1 l 1 与 l2 l 2 正则化联合使用:
Elastic 网络正则化
10.3 最大范数约束
最大范数约束(max norm constraints)是通过向参数量级的范数设置上限对网络进行正则化的手段,形如:
c 多取 103,104 10 3 , 10 4 数量级数值
10.4 Dropout(随机失活)
Dropout在约束网络复杂度的同时,还是一种针对深度模型的高效集成学习方法
降低神经元之间的依赖
原理:
对于某层的每个神经元,
在训练阶段均以概率p随机将该神经元权重置零。
测试阶段所有神经元都呈激活态,权重乘以 (1−p) ( 1 − p )
相当于平均集成(average ensemble)
倒置随机失活:
训练阶段直接将随机失活后的网络响应乘以
11−p
1
1
−
p
10.5 验证集的使用
通常,在模型训练前可从训练集数据随机划分出一个子集作为“验证集”
一般在每轮或每个批处理训练后在该训练集和验证集上分别作网络前向运算,预测训练集和验证集样本标记,绘制学习曲线
以此检验模型泛化能力。
learning curve:
- 若验证集上准确率一直低于训练集上准确率,无明显下降趋势—->欠拟合
—->增加层数;调整激活函数增加网络非线性;减小模型正则化 - 若验证集不仅低于训练集,且随着训练轮数增长有明显下降趋势—->过拟合
—->增加模型正则化
更多的方式
- early stopping : 可取验证集准确率最高的那一轮训练结果作为最终网络,用于测试集数据的预测。
- 增加训练数据/数据扩充
参考文献:解析卷积神经网络—深度学习实践手册