深度学习中常见的损失函数（L1Loss、L2loss）

最新推荐文章于 2025-04-25 15:48:13 发布

脑袋里都是水

最新推荐文章于 2025-04-25 15:48:13 发布

阅读量2.3w

点赞数 10

分类专栏： pytorch深度学习等代码BUG调试记录

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37925923/article/details/127368635

版权

pytorch深度学习等代码BUG调试记录专栏收录该内容

8 篇文章

订阅专栏

损失函数定义

损失函数：衡量模型输出与真实标签的差异。

L1_loss

平均绝对误差（L1 Loss）:平均绝对误差（Mean Absolute Error,MAE）是指模型预测值f(x)和真实值y之间距离的平均值，公式如下：

优点：无论对于什么样的输入值，都有着稳定的梯度，不会导致梯度爆炸问题，具有较为稳健性的解
缺点：在中心点是折点，不能求导，梯度下降时要是恰好学习到w=0就没法接着进行了

L2_loss

均方误差MSE（L2 LOSS）：均方误差（Mean Square Error,MSE）是模型预测值f(x)和样本真实值y之间差值平方的平均值，公式如下：

优点：各点都连续光滑，方便求导，具有较为稳定的解
缺点：不是特别的稳健，因为当函数的输入值距离真实值较远的时候，对应loss值很大在两侧，则使用梯度下降法求解的时候梯度很大，可能导致梯度爆炸

L1_loss 和L2_loss的区别

L1_loss在零点不平滑，用的较少。一般来说，L1正则会制造稀疏的特征，大部分无用的特征的权重会被置为0。（适合回归任务，简单的模型，由于神经网络通常解决复杂问题，很少使用。）

L2 loss：对离群点比较敏感，如果feature是unbounded的话，需要好好调整学习率，防止出现梯度爆炸的情况。l2正则会让特征的权重不过大，使得特征的权重比较平均。

（适合回归任务，数值特征不大，问题维度不高）

L1 Loss和L2 Loss都有缺点，那么如何解决这一问题呢？所以大神们就提出了 Smooth L1 Loss。

Smooth L1 Loss

平滑版本的L1 LOSS

从公式中我们可以看出，当预测值f(xi)和真实值yi差别较小的时候（绝对值差小于1），其实使用的是L2 loss；差别大的时候，使用的是L1 loss的平移。因此，Smooth L1 loss其实是L1 loss 和L2 loss的结合，同时拥有两者的部分优点：

真实值和预测值差别较小时（绝对值差小于1），梯度也会比较小（损失函数比普通L1 loss在此处更圆滑），可以收敛得更快。
真实值和预测值差别较大时，梯度值足够小（普通L2 loss在这种位置梯度值就很大，容易梯度爆炸）

三者区别

（1）L1 loss在零点不平滑，此处不可导，所以在w=0时没法接着梯度下降了，用的少
（2）L2 loss对离群点比较敏感，离群点处的梯度很大，容易梯度爆炸
（3）smooth L1 loss结合了L1和L2的优点，修改了零点不平滑问题，且比L2 loss对异常值的鲁棒性更强

脑袋里都是水

博客等级

码龄8年

18
原创

42
点赞

246
收藏

22
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 经典模型ResNet分析

下一篇：: 张量Tucker分解

最新评论

IQA图像质量评价数据集介绍(LIVE、TID2013、CSIQ、LIVEC、KonIQ-10K)
不熬夜oo: 大佬提取码错误
Anaconda Create Enviroment报错：HTTPS..
CSDN-Ada助手: 恭喜您发布了第18篇博客！看到您遇到Anaconda Create Enviroment报错的问题，我觉得您的解决问题的能力很强，希望您能继续保持分享经验的热情。下一步，或许可以考虑写一些关于如何优化Anaconda环境配置的文章，或者分享一些实用的数据分析技巧，这样能够吸引更多读者。期待您的下一篇作品！
批量下载.whl文件
CSDN-Ada助手: 恭喜您写了这么有用的一篇博客！批量下载.whl文件对很多人来说一定是非常实用的技巧。接下来，我建议您可以考虑分享一些关于.whl文件的使用技巧或者常见问题的解决方案，这样可以让读者更好地理解和应用您所分享的内容。期待您更多的创作！继续加油！
IQA图像质量评价数据集介绍(LIVE、TID2013、CSIQ、LIVEC、KonIQ-10K)
脑袋里都是水: 这些只是公开数据集，怎么使用看各位学者自行研究。
IQA图像质量评价数据集介绍(LIVE、TID2013、CSIQ、LIVEC、KonIQ-10K)
SetMaker: 这一些数据集都是用传统cnn的方式去强行学习的吗？？？

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。