Loss——Focal Loss

最新推荐文章于 2024-03-23 12:53:02 发布

jmucvm

最新推荐文章于 2024-03-23 12:53:02 发布

阅读量924

点赞数 1

分类专栏：计算机视觉深度学习文章标签： Focal Loss loss Function

本文链接：https://blog.csdn.net/jmu201521121021/article/details/87907324

版权

深度学习同时被 2 个专栏收录

34 篇文章 3 订阅

订阅专栏

计算机视觉

23 篇文章 2 订阅

订阅专栏

Loss——Focal Loss

一、简介

Focal Loss论文地址：https://arxiv.org/pdf/1708.02002.pdf
Focal Loss是基于Cross Entropy修改的，是解决分类不均衡问题的一种方案。 reduces the relative loss for well-classified examples，(pt > :5), putting more focus on hard, misclassified examples,加入参数： $\alpha、\gamma$ ，这两个参数自己设定。

二、原理、公式推导

$p_i=sigmoid(x_i)=\frac{1}{1+e^{-x_i}}\qquad(1)$
$p_t=\left\{ \begin{aligned} p_i & & {if, \quad y_i =1 } \\ 1-p_i & & {otherwise} \\ \end{aligned} \qquad(2)\right.$
$CE(p_t) = -log(p_t)= -(y*log( p_i) + (1-y)log(1-p_i) )\qquad (3)$
$FL(p_t) = \alpha (1-p_t)^{\gamma} \times CE(p_t)=-\alpha (1-p_t)^{\gamma} \times log(p_t)=-(\alpha (1-p_i)^{\gamma}y*log( p_i) + \alpha p _i^{\gamma}(1-y)log(1-p_i) )\qquad(4)$

反向传播,求梯度, $y\in\{1,-1\}$ 。
$\frac{\partial FL}{\partial x_i}=\frac{\partial FL}{\partial p_t}\times \frac{\partial p_t}{\partial x_i}\qquad(5)$
$\frac{\partial FL}{\partial p_t} = -[-\alpha\gamma(1-p_t)^{\gamma-1}log(p_t)+\frac{(1-p_t)^{\gamma}}{p_t}]\qquad(6)$
$\frac{\partial p_t}{\partial x_i} = \frac{\partial p_t}{\partial p_i}\times\frac{\partial p_i}{\partial x_i}=y\times(1-p_i)\times p_i =y\times p_t \times(1-p_t) \qquad(7)$
$\frac{\partial FL}{\partial x_i}=\frac{\partial FL}{\partial p_t}\times \frac{\partial p_t}{\partial x_i}=y\alpha(1-p_t)^{\gamma}[\gamma p_tlog(p_t)+p_t-1]\qquad(8)$

三、darknet yolov3-spp focal loss 代码（自己添加）

 if (focal_loss) {
        // Focal Loss
        float alpha = 0.5;    // 0.25 or 0.5
        int gamma = 2;
        if (delta[index + stride*class_id]){
            int index_classes = index + stride*class_id;
            float pt = output[index_classes];
            pt = max(pt,  0.000000000000001F);
            float grad = pow(1-pt, gamma) * (gamma * pt * logf(pt) + pt - 1);
            delta[index + stride*class_id] = (-1 * alpha*grad);
            if(avg_cat) *avg_cat += output[index + stride*class_id];
            return;
        }
        for (n = 0; n < classes; ++n) {
            int index_classes = index + stride*n;
            float pt = (n == class_id ? output[index_classes]: (1- output[index_classes]));
            pt = max(pt,  0.000000000000001F);
            float grad = (n == class_id ? pow(1-pt, gamma) * (gamma * pt * logf(pt) + pt - 1): \
                                         -1 * pow(1-pt, gamma) * (gamma * pt * logf(pt) + pt - 1));
            delta[index_classes]  = (-1 * alpha*grad);

            if (n == class_id) *avg_cat += output[index_classes];
        }
    }

四、总结

paper 中指出 $\gamma=2$ 时效果最佳。Focal Loss在实际应用中并非都能提升分类能力。

jmucvm

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
Loss——Focal Loss

Loss——Focal Loss一、简介Focal Loss论文地址：https://arxiv.org/pdf/1708.02002.pdfFocal Loss是基于Cross Entropy修改的，是解决分类不均衡问题的一种方案。 reduces the relative loss for well-classified examples，(pt &amp;amp;amp;amp;gt; :5), putting m...
复制链接

扫一扫

专栏目录