正则化处理过拟合（L1范数、L2范数）

最新推荐文章于 2024-04-05 21:26:50 发布

farmer_killer

最新推荐文章于 2024-04-05 21:26:50 发布

阅读量268

点赞数

文章标签：深度学习

原文链接：https://blog.csdn.net/weixin_44700798/article/details/110675144

版权

过拟合问题

在这里插入图片描述

目标函数 = 损失函数 +正则化项。 Lasso回归=损失函数+L1项；Ridge回归=损失函数+L2项

梯度更新时对目标函数求导（即求梯度dir）带入更新公式：W（n+1）=W（n）— lr *dir

L1正则化解析

稀疏的参数代表模型越简单，越简单的模型越不容易产生过拟合现象。L1正则化项使得部分参数衰减到0，参数模型变得稀疏，简化了模型。

在这里插入图片描述

L2正则化解析

参数值越小代表模型越简单，越简单的模型越不容易产生过拟合现象。L2正则化项使得参数接近于0 ，L2正则化项也称为“权值衰减weight decay”

在这里插入图片描述

总结

过拟合解决办法：增加训练数据、交叉验证、正则化

问题：稀疏的参数代表模型越简单吗？
回答：是的，模型简化，避免过拟合。因为一个模型中真正重要的参数可能并不多，如果考虑所有的参数起作用，
那么可以对训练数据可以预测的很好，但是对测试数据就很差了。参数变少也可以使整个模型获得更好的可解释性。

问题：参数值越小代表模型越简单吗？
回答：是的。为什么参数越小，说明模型越简单呢，这是因为越复杂的模型，越是会尝试对所有的样本进行拟合，
甚至包括一些异常样本点，这就容易造成在较小的区间里预测值产生较大的波动，这种较大的波动也反映了在这个区间里的导数很大，
而只有较大的参数值才能产生较大的导数。因此复杂的模型，其参数值会比较大。

其他博文参考

(85条消息) 原理解析-过拟合与正则化_Dream-YH的博客-CSDN博客_过拟合正则化