目的
通过正则化的方式,防止过拟合。
我们总是可以通过去收集更多的训练数据来缓解过拟合。 但这可能成本很高,耗时颇多,或者完全超出我们的控制,因而在短期内不可能做到。 假设我们已经拥有尽可能多的高质量数据,我们便可以将重点放在正则化技术上。
权重衰减(weight decay)是最广泛使用的正则化的技术之一, 它通常也被称为𝐿2L2_正则化_
使用均方范数作为硬性限制
-
通过限制参数值的选择范围来控制模型容量
min l ( w , b ) s u b j e c t t o ∥ w ∥ 2 ⩽ θ \min l(w,b)\ \ subject\ \ to\ \|w\|^2 \leqslant \theta minl(w,b) sub