一、常见的目标函数(loss/cost function)
二、经验风险与结构风险
经验风险 L(f) 就是以上损失函数,描述的是模型与训练数据的契合程度。
结构风险Ω(f)对应于过拟合问题,用正则项解决过拟合是结构风险的课题。
三、正则项
正则项原本有两种,L1正则项与L2正则项,后面还出现了L1和L2的中庸形态——Elasitc Net。
首先,L1正则项和L2正则项的公式如下图,它们的作用都是在某个参数值Θ过大时给予惩罚,即让它的J(Θ)变大。
而两者之间的区别在于,L2时对Θ的平方求和,而L1对Θ的绝对值求和。
引申一个问题:
在我们使用L1正则化的时候,往往会导致稀疏解(有些特征对应的Θ为0),而L2却不会,这是为什么?