过拟合问题
目标函数 = 损失函数 +正则化项。 Lasso回归=损失函数+L1项;Ridge回归=损失函数+L2项
梯度更新时对目标函数求导(即求梯度dir)带入更新公式:W(n+1)=W(n)— lr *dir
L1正则化解析
稀疏的参数代表模型越简单,越简单的模型越不容易产生过拟合现象。L1正则化项使得部分参数衰减到0,参数模型变得稀疏,简化了模型。
L2正则化解析
参数值越小代表模型越简单,越简单的模型越不容易产生过拟合现象。L2正则化项使得参数接近于0 ,L2正则化项也称为“权值衰减weight decay”
总结
过拟合解决办法:增加训练数据、交叉验证、正则化
问题:稀疏的参数代表模型越简单吗?
回答:是的,模型简化,避免过拟合。因为一个模型中真正重要的参数可能并不多,如果考虑所有的参数起作用,
那么可以对训练数据可以预测的很好,但是对测试数据就很差了。参数变少也可以使整个模型获得更好的可解释性。
问题:参数值越小代表模型越简单吗?
回答:是的。为什么参数越小,说明模型越简单呢,这是因为越复杂的模型,越是会尝试对所有的样本进行拟合,
甚至包括一些异常样本点,这就容易造成在较小的区间里预测值产生较大的波动,这种较大的波动也反映了在这个区间里的导数很大,
而只有较大的参数值才能产生较大的导数。因此复杂的模型,其参数值会比较大。
其他博文参考