正则化作用:
最小化误差:拟合训练数据,
正则化参数:防止模型过分拟合训练数据,通常使用 L2正则化
L0:0范数,扰动 非0元素的个数
L1:1范数,各元素的绝对值之和
L2: 2范数,平方和再开方,通常用2范数来衡量扰动的程度
L无穷:无穷范数,各元素的绝对值的最大值,表示扰动的最大值
其他的正则化方法:
-
dropout 丢弃法:每个神经元都有可能被丢掉,因此模型训练的时候,模型不敢给任何神经元过大的参数
-
early-stopping
批规范化 Batch Normalization
对数据做批规范化,使得数据满足均值为0,方差为1的正态分布。
主要作用是:缓解DNN训练中的 梯度消失 / 梯度爆炸现象,加快模型的训练速度。
通过一定的规范化手段,把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布,其实就是把越来越偏的分布强制拉回比较标准的分布,这样把输入的分布变窄(固定在[-1,1]),但是让梯度变大,避免梯度消失问题产生,而且梯度变大意味着学习收敛速度快,能大大加快训练速度。