理解Hinge Loss (折页损失函数、铰链损失函数)

最新推荐文章于 2024-09-24 22:14:51 发布

SilenceHell

最新推荐文章于 2024-09-24 22:14:51 发布

阅读量1.1k

点赞数

分类专栏：机器学习基础知识整理

机器学习基础知识整理专栏收录该内容

20 篇文章 0 订阅

订阅专栏

转载于：https://blog.csdn.net/fendegao/article/details/79968994

Hinge Loss 是机器学习领域中的一种损失函数，可用于“最大间隔(max-margin)”分类，其最著名的应用是作为SVM的目标函数。

在二分类情况下，公式如下：

L(y) = max(0 , 1 – t⋅y)

其中，y是预测值(-1到1之间)，t为目标值(1或 -1)。其含义为，y的值在 -1到1之间即可，并不鼓励 |y|>1，即让某个样本能够正确分类就可以了，不鼓励分类器过度自信，当样本与分割线的距离超过1时并不会有任何奖励。目的在于使分类器更专注于整体的分类误差。

变种

在实际应用中，一方面，预测值y并不总是属于[-1,1]，也可能属于其他的取值范围；另一方面，很多时候我们希望训练的是两个元素之间的相似关系，而非样本的类别得分。所以下面的公式可能会更加常用：

L( y, y′) = max( 0, margin – (y–y′) )

= max( 0, margin + (y′–y) )

= max( 0, margin + y′ – y)

其中，y是正确预测的得分，y′是错误预测的得分，两者的差值可用来表示两种预测结果的相似关系，margin是一个由自己指定的安全系数。我们希望正确预测的得分高于错误预测的得分，且高出一个边界值 margin，换句话说，y越高越好，y′ 越低越好，(y–y′)越大越好，(y′–y)越小越好，但二者得分之差最多为margin就足够了，差距更大并不会有任何奖励。这样设计的目的在于，对单个样本正确分类只要有margin的把握就足够了，更大的把握则不必要，过分注重单个样本的分类效果反而有可能使整体的分类效果变坏。分类器应该更加专注于整体的分类误差。

举个栗子，假设有3个类cat、car、frog：

第一列表示样本真实类别为cat，分类器判断样本为cat的分数为3.2，判断为car的分数为5.1，判断为frog的分数为 -1.7。那这里的 hinge loss 怎么计算呢？

这里是让其他两类的分数去减去真实类别的分数，这相当于计算其他类与真实类之间的误差。因为我们希望错误类别的评分低于正确类别的评分，所以这个误差值越小越好。另外，还使用了一个边界值margin，取值为1，为了使训练出的分类器有更大的把握进行正确分类。

有多种 hinge loss 的变化形式，比如，Crammerand Singer提出的一种针对线性分类器的损失函数:

Weston and Watkins提出了一种相似定义，只不过用相加取代了求最大值：

优化

hinge loss 函数是凸函数，因此机器学习中很多的凸优化方法同样适用于 hinge loss。

然而，因为 hinge loss 在t⋅y=1的时候导数是不确定的，所以一个平滑版的 hinge loss 函数会更加有助于优化，它由Rennie and Srebro提出：

除此之外，还有二次方平滑：

上图为 hinge loss 函数关于z=t⋅y的三种版本，蓝色的线是原始版，绿色线为二次方平滑，红色的线为分段平滑，也就是Rennie and Srebro提出的那一版。

参考资料：

https://blog.csdn.net/luo123n/article/details/48878759###

https://blog.csdn.net/sxf1061926959/article/details/60470415

https://blog.csdn.net/chaipp0607/article/details/76037351

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。