Huber和berHu损失函数

L1范数损失函数,也被称为最小绝对值偏差(LAD),最小绝对值误差(LAE)

在这里插入图片描述

L2范数损失函数,也被称为最小平方误差(LSE)
在这里插入图片描述

L2损失函数 : 不是非常的鲁棒 ; 稳定解 ;;;总是一个解
L1损失函数 : 鲁棒 ;;;;;; 不稳定解 ; ; 可能多个解

鲁棒性

最小绝对值偏差之所以是鲁棒的,是因为它能处理数据中的异常值。如果需要考虑任一或全部的异常值,那么最小绝对值偏差是更好的选择。

L2范数将误差平方化(如果误差大于1,则误差会放大很多),模型的误差会比L1范数来得大,因此模型会对这个样本更加敏感,这就需要调整模型来最小化误差。如果这个样本是一个异常值,模型就需要调整以适应单个的异常值,这会牺牲许多其它正常的样本,因为这些正常样本的误差比这单个的异常值的误差小。

稳定性

最小绝对值偏差方法的不稳定性意味着,对于数据集的一个小的水平方向的波动,回归线也许会跳跃很大。

相反地,最小平方法的解是稳定的,因为对于一个数据点的任何微小波动,回归线总是只会发生轻微移动

总结

MSE对误差取了平方,如果存在异常值,那么这个MSE就很大。

MAE更新的梯度始终相同,即使对于很小的值,梯度也很大,可以使用变化的学习率。MSE就好很多,使用固定的学习率也能有效收敛。
在这里插入图片描述

总而言之,处理异常点时,L1损失函数更稳定,但它的导数不连续,因此求解效率较低。L2损失函数对异常点更敏感,但通过令其导数为0,可以得到更稳定的封闭解。

Huber

l1和l2都存在的问题:

若数据中90%的样本对应的目标值为150,剩下10%在0到30之间。

那么使用MAE作为损失函数的模型可能会忽视10%的异常点,而对所有样本的预测值都为150,因为模型会按中位数来预测;

MSE的模型则会给出很多介于0到30的预测值,因为模型会向异常点偏移。

这些情况下最简单的办法是对目标变量进行变换。而另一种办法则是换一个损失函数,这就引出了下面要讲的第三种损失函数,即Huber损失函数。

Huber损失,平滑的平均绝对误差

Huber损失对数据中的异常点没有平方误差损失那么敏感。

本质上,Huber损失是绝对误差,只是在误差很小时,就变为平方误差。误差降到多小时变为二次误差由超参数δ(delta)来控制。当Huber损失在[0-δ,0+δ]之间时,等价为MSE,而在[-∞,δ]和[δ,+∞]时为MAE。
在这里插入图片描述

berHu损失

berHu恰恰和Huber相反,头很铁,当berHu损失在[0-δ,0+δ]之间时,等价为MAE,而在[-∞,δ]和[δ,+∞]时为MSE.

这样做的目的,就是给一个 超严格的监督,让模型尽量达到最好效果 。

参考:https://www.cnblogs.com/pacino12134/p/11104446.html

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Huber损失函数是一种平滑的平均绝对误差损失函数,对数据中的异常点不像平方误差损失函数那样敏感。它在误差较小时变为平方误差,误差较大时变为绝对误差。Huber损失函数的超参数δ(delta)控制了误差降到多少时转变为平方误差。当误差在\[-∞,δ\]和\[δ,+∞\]之间时,Huber损失函数等价于绝对误差损失函数(MAE),而在\[0-δ,0+δ\]之间时等价于平方误差损失函数(MSE)\[1\]。 要实现Huber损失函数,可以使用以下公式: L(y, f(x)) = 0.5 * (y - f(x))^2, if |y - f(x)| <= δ δ * |y - f(x)| - 0.5 * δ^2, otherwise 其中,y是真实值,f(x)是模型的预测值,δ是超参数,表示误差的阈值。当|y - f(x)|小于等于δ时,使用平方误差;当|y - f(x)|大于δ时,使用绝对误差,并加上一个惩罚项0.5 * δ^2\[1\]。 通过这个公式,可以计算每个样本的Huber损失,并将所有样本的损失求平均,作为模型的损失函数。在训练过程中,可以使用梯度下降等优化算法来最小化Huber损失函数,以求得最优的模型参数\[3\]。 #### 引用[.reference_title] - *1* [tf.keras.losses.Huber 损失函数 示例](https://blog.csdn.net/weixin_44493841/article/details/121510638)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [机器学习02——回归问题中的损失函数 (L2损失L1损失Huber损失函数)](https://blog.csdn.net/u014005758/article/details/88958683)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值