任务描述
本关任务:在上一关的基础上,添加L2和dropout正则项
相关知识
正则化常用于缓解模型过拟合。常用的有两种正则化策略:1、通过对模型施加某些限制,增加优化约束条件;2、通过在模型优化过程中添加干扰,提高模型泛化能力。
为了完成本关任务,你需要掌握:1.L2正则项,2.如何给loss函数添加正则项,3. 随机失活函数
L2正则项
L2 正则化公式非常简单,直接在原来的损失函数基础上加上权重参数的平方和:
L=Ein+λj∑ωj2
其中,Ein 是未包含正则化项的训练样本误差,λ 是正则化参数,可调。但是正则化项是如何推导的?接下来,我将详细介绍其中的物理意义。
我们知道,正则化的目的是限制参数过多或者过大,避免模型更加复杂。例如,使用多项式模型,如果使用 10 阶多项式,模型可能过于复杂,容易发生过拟合。所以,为了防止过拟合,我们可以将其高阶部分的权重ω限制为 0,这样,就相当于从高阶的形式转换为低阶。
为了达到这一目的,最直观的方法就是限制ω的个数,但是这类条件属于 NP-hard 问题,求解非常困难。所以,一般的做法是寻找更宽松的限定条件:
j∑ωj2<=C
上式是对ω的平方和做数值上界限定,即所有ω的平方和不超过参数 C。这时候,我们的目标就转换为:最小化训练样本误差Ein,但是要遵循ω平方和小于 C 的条件。
下面,我用一张图来说明如何在限定条件下,对Ein进行最小化的