第七章 深度学习中的正则化
官网链接
2020-2-9 深度学习笔记7 - 深度学习中的正则化1(参数范数惩罚和范数惩罚约束)
2020-2-12 深度学习笔记7 - 深度学习中的正则化2(欠约束,数据集增强,噪声鲁棒性,输出目标注入噪声)
2020-2-13 深度学习笔记7 - 深度学习中的正则化3(半监督,多任务,提前终止-解决过拟合,参数绑定与参数共享)
稀疏表示
前文所述的权重衰减直接惩罚模型参数。 另一种策略是惩罚神经网络中的激活单元,稀疏化激活单元。 这种策略间接地对模型参数施加了复杂惩罚。
我们已经讨论过 L 1 L^1 L1惩罚如何诱导稀疏的参数,即许多参数为零(或接近于零)。 另一方面,表示的稀疏描述了许多元素是零(或接近零)的表示
。
表示的范数惩罚正则化是通过向损失函数 J J J添加对表示的范数惩罚来实现的。 我们将这个惩罚记作 Ω ( h ) \Omega(h) Ω(h)。 和以前一样,我们将正则化后的损失函数记作 J ~ \tilde J J~:
J ( θ ; X , y ) = J ( θ ; X , y ) + α Ω ( h ) J~(θ;X,y)=J(θ;X,y)+αΩ(h) J (θ;X,y)=J(θ;X,y)+αΩ(h)
其中 α ∈ [ 0 , ∞ ] \alpha \in [0, \infty] α∈[0,∞] 权衡范数惩罚项的相对贡献,越大的 α \alpha α对应越多的正则化。
正如对参数的 L 1 L^1 L1惩罚诱导参数稀疏性,对表示元素的 L 1 L^1 L1惩罚诱导稀疏的表示: Ω ( h ) = ∣ ∣ h ∣ ∣ 1 = ∑ i ∣ h i ∣ \Omega(h) = ||h||_1 = \sum_i |h_i| Ω(h)=∣∣h∣∣1=∑i∣hi∣。除了 L 1 L^1 L1惩罚诱导稀疏,其他方法还包括从表示上的Student- t t t先验导出的惩罚和KL散度惩罚。
含有隐藏单元的模型在本质上都能变得稀疏。
稀疏表示也是卷积神经网络经常用到的正则化方法。L1正则化会诱导稀疏的参数,使得许多参数为0;而稀疏表示是惩罚神经网络的激活单元,稀疏化激活单元。换言之,稀疏表示是使得每个神经元的输入单元变得稀疏,很多输入是0。
例如下图,只依赖于上一层的3个神经元输入 x 1 x_1 x