Hinge loss和Focal loss

城俊BLOG

已于 2023-12-10 15:34:11 修改

阅读量372

点赞数 1

分类专栏： # CV-基础 # DL-基础数学基础文章标签：深度学习

于 2021-05-26 13:35:57 首次发布

本文链接：https://blog.csdn.net/qxqxqzzz/article/details/117288593

版权

CV-基础同时被 3 个专栏收录

107 篇文章 2 订阅

订阅专栏

DL-基础

83 篇文章 2 订阅

订阅专栏

数学基础

16 篇文章 0 订阅

订阅专栏

Hinge loss:

用途：用于二分类问题，增加分类间隔（如SVM中最大化分类间隔），当间隔大于1时不再奖励
思想：
$max(0,1-y*\hat{y})$
$y$ 和 $\hat{y}$ 一个是真实值（+1或-1，即样本属于正类或者负类），一个是预测值（-1~1之间的连续数值）。
这个loss最小值为0
不足：预测值不一定都是在-1到1的范围内，也可能考虑的是预测的概率关系
改进：思路是让分类正确的概率比分类错误的概率大一个margin
$Loss = max(0,margin-(p_{True}-p_{False}))$
化简后得到：
$Loss = max(0,margin+p_{False}-p_{True})$
$p_{False}和p_{True}$ 分别是分类正确的概率和分类错误的概率。目的是希望分类正确的概率要比分类错误的概率大出一个margin（视为安全），那样的情况下loss为0

Focal loss:

用途：解决难样本与容易样本的不平衡问题（不是正负样本的不平衡问题），如目标检测中存在很多容易的负样本（离GT很远的预测框）
思想：在交叉熵loss基础上做的改进。在模型训练的过程中更多地关注难样本，减少容易的样本的loss（这些样本分类概率置信度p很高，做法是用1-p和它的loss相乘），因为觉得这些样本对提升模型性能的帮助不大
$Loss=\left\{\begin{aligned} & -\alpha*(1-p)^\gamma*log(p) & y=1 \\ & -(1-\alpha) * p^\gamma * log(1-p) & y=0 \end{aligned}\right.$
$p$ 为分类概率， $y = 1$ 表示真实值label， $\alpha$ 和 $\gamma$ 为超参数，一般取 $\alpha=0.25$ ， $\gamma=2$

疑问：alpha = 0.25<0.75，反而是降低了正样本（难样本）的重要性？
解释：通过gamma去降低负样本（容易样本）的重要性，指数gamma的作用会强于系数alpha，但是可能会过分降低了负样本的重要性，因此希望通过alpha再找回。（alpha = 0.25作用于正样本，0.75作用于负样本，正（少数）样本衰减的要比负样本快，更关注正样本）