目录
第四章 正则化
第一节 过拟合
在训练过程中,我们常常遇到的问题之一便是过拟合,本节简要介绍过拟合是什么、产生的原因和解决过拟合问题的方法。
- 过拟合的概念:学的模型的训练误差较小,而泛化能力较弱即泛化误差较大的现象。
- 产生过拟合的根本原因:模型的学习能力与数据复杂失配。具体原因:数据噪声干扰过大、训练样本太少,无法描述问题的真实分布、模型复杂度过高。
- 防止过拟合的方法:减少特征维度、正则化(数据增强、参数范数惩罚、Dropout、提前终止)
第二节 数据增强
遇到过拟合问题,一言不合采用正则化方法,本节讲述的正则化方法之一——数据增强。
数据增强的概念:增加训练数据样本。足够的数据可以让模型看见尽可能多的例外情况的并不断修正自己,从而效果更好。
在目标识别领域常用的方法是将图片进行平移、缩放等等操作。
除了数据增强可以正则化之外,噪声注入,即在训练时就加入噪声,有意训练模型的抗噪声能力,也可以实现正则化,防止过拟合。
在输入层加入噪声:数据增强
在隐藏层加入噪声:Dropout
在输出层加入噪声:标签平滑
【标】标签平滑,使loss增加
第四节 L1和L2正则
L1和L2正则,均属于参数范数惩罚,即对目标函数加入一项参数惩罚,限制模型的学习能力,使模型学习能力与数据复杂度相匹配,防止过拟合。
第五节 Dropout
概念:在训练过程中,随机丢弃一部分输入,此时丢弃部分的参数不会更新。
我的理解Dropout方法也是相当于抑制了模型的学习能力。
Dropout的作用:
取平均的作用、减少神经元之间复杂的共适应关系、Dropout类似于性别在生物进化中的角色。
第六节 提前终止
在训练过程中,插入对验证集数据的测试,当发现验证集数据的loss上升时,提前停止训练。
第七节 随机池化
概念:按一定规律随机选取其中一个元素,介于平均池化和最大池化之间,并且受dropout启发。具有更好的正则化效果。
第五章 优化器
优化器,可以理解就是梯度下降法。(详见http://t.csdn.cn/YcnHj)
常见优化器:
- SGD(随机梯度下降法)
- Momentum(动量优化器)
- Adagrad
- Adadelta
- RMSprop
- Adam
如何选择优化器呢?
数据稀疏,选择自适应的优化器(Adagrad、Adadelta、RMSprop、Adam)
梯度稀疏,选择Adam,因此总的来说,Adam优化器比较常用。