1、学习三要素:模型、策略、算法
模型:即所要学习问题的条件概率分布或决策函数,即想要解决什么样的问题以及对该问题的统计学抽象,加上一定的假设。
策略:学习最优模型的优化方法,一般有两种:经验风险最小化和结构风险最小化。这两个方法是可以同时使用的,一般来说,也都是同时使用的。
经验风险最小化,可以简单理解为对损失函数期望的最小化估计。期望风险就是泛化误差,即该模型对未知数据的预测能力。极大似然估计就是一种模型为条件概率模型,损失函数为对数损失函数时的经验风险最小化估计。
结构风险最小化,等价于正则,是一种为了避免过拟合而提出的这种策略,目标是选择经验风险和模型复杂度同时小的模型。最大后验概率估计是一种极大似然估计的特例,增加了先验概率作为正则项来表示模型复杂度。符合Occam原理:在所有的可以选择的模型中,能够很好的解释已知数据并且十分简单的模型才是最好的模型。
算法:具体实现。
2、避免过拟合的方法:
正则项
减少特征维度
Dropout(神经网络)
增加数据集
3、正则项
比较常用的两种正则项为
L1
(1)和
L2
(2)范数,一种说法表示
L1
范数服从Laplacian分布,而
L2
服从Gaussian分布,但是并不理解。通俗来说,其目的均是使模型复杂度最低,即参数尽可能稀疏。
L1
是一个绝对稀疏的正则项,
L2
是一个相对稀疏的正则项,是为了解决
L1
不可微问题而提出的一个近似估计。这里关于
L1
范数的稀疏性可以从如下推导得出。
L2=||x||22 (2)
假设最优化的损失函数为Loss,参数为x,正则为 L1 正则,x的梯度下降更新过程如下所示
x:=∂Loss∂x+α x<0
对于大于0的参数,正则项的导数为正使得参数减小,相反,对于小于0的参数,则会获得一个增加的梯度,从而使得目标参数趋近于0,即得到稀疏。
参考文献:
1.《统计学习方法》