一.过拟合欠拟合:
- 欠拟合:模型容量过低,导致模型无法被很好的训练。
- 过拟合:模型过于关注细节导致随着模型容量增加误差增加。
二.特征选择解决过拟合问题:
通过选择最相关的特征,去除弱相关特征来减少特征数量可以解决过拟合问题。
三.正则化解决过拟合问题:
正则化在训练过程中鼓励缩小参数值,防止某个特征对模型产生过大的影响,限制模型的复杂度。
原理:损失函数在原先的基础上加入正则项,且只对与特征相关的参数w进行正则化,参数b与特征无关不进行正则化。
修改后的损失函数如下:
其中参数λ也是一个训练过程可变参数,若模型在训练阶段过拟合,可以增大λ;当模型在训练阶段欠拟合,可减小λ。
损失函数加入正则项后,想到梯度下降算法的公式,这时对w求偏导就会多出一项,导致参数wi的梯度变大,因此学习率×梯度就会变大,又因为学习率×梯度前面是负号,所以参数wi相比于原来未加入正则化前减少的值变多,所以参数wi就会变得更小,如此实现了正则化缩小参数值的功能。
相应的,参数b却不会受正则化影响。
四.权重衰退解决过拟合问题:
我们知道通过减小参数的大小可以避免过拟合的发生,权重衰退就是基于这一理念产生的。
- 限制条件:规定参数W的平方和≤固定值θ。其中θ用来限制参数的大小
五.丢弃法解决过拟合问题:
- 丢弃法就是在层之间加入丢弃函数,在每层输出之前调用丢弃函数,值变为0的元素即被丢弃,变为非0的元素会变大。
这样做可以降低模型的复杂度防止过拟合,同时上述公式可以保证丢弃前后数据的期望不变。
丢弃法的具体使用如下图所示: