【阅读笔记】Gradient Harmonized Single-stage Detector

最新推荐文章于 2024-04-08 09:46:15 发布

SrdLaplaceGua

最新推荐文章于 2024-04-08 09:46:15 发布

阅读量2.3k

点赞数

分类专栏：机器学习读书笔记文章标签： loss function 数据不均衡 AAAI 梯度归一化 gradient harmonized

本文链接：https://blog.csdn.net/SrdLaplace/article/details/86596843

版权

机器学习同时被 2 个专栏收录

57 篇文章 0 订阅

订阅专栏

读书笔记

37 篇文章 1 订阅

订阅专栏

Li B , Liu Y , Wang X . Gradient Harmonized Single-stage Detector[J]. 2018.
https://github.com/libuyu/GHM_Detection

本文认为影响单阶段检测器的训练的本质问题不是不同类别的样本数的差异，而是不同难度样本的分布不均衡。在训练过程中，每个样本产生一个梯度来更新模型的参数，不同样本对参数更新的贡献不同。在训练过程中，模型已经有很好的判别的简单样本的数量非常大，在模型更新中很有可能占据主导作用，那么这样的参数更新并不会改善模型的判断能力，反而使整个训练变得非常低效。为了解决这个问题，作者设计了梯度均衡机制（Gradient Harmonizing mechanism）。
在这里插入图片描述

Gradient Harmonizing Mechanism

我们定义每个样本的对 loss 求得的梯度的模值为 $g$ ，定义 gradient density 为
$GD(g)=\frac{1}{l_{\epsilon}(g)}\sum_{k=1}^{N}\delta_{\epsilon}(g_k,g)$

$\delta_{\epsilon}(x,y)=\left\{\begin{array}{l}1, if~y-\frac{\epsilon}{2} \leq x \leq y+\frac{\epsilon}{2}\\{0, else} \end{array} \right.$

$l_{\epsilon}(g) = min(g+\frac{\epsilon}{2}, 1) − max(g−\frac{\epsilon}{2}, 0)$

定义 gradient density harmonizing parameter：
$\beta_i=\frac{N}{GD(g_i)}$

根据归一化系数得到 GHM-C Loss：
$Loss_{GHM-C}=\frac{1}{N}\sum_{i=0}^{N}\beta_i*loss_i\\=\sum_{i=0}^{N}\frac{loss_i}{GD(g_i)}$

我的理解是模型很容易就被训练到容易识别简单样本的情形，利用 GHM-C Loss 将简单样本和 outlier 的梯度贡献减少，提高训练效率，减小 outlier 的影响。

在这里插入图片描述
AP 确实有所上升

SrdLaplaceGua

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【阅读笔记】Gradient Harmonized Single-stage Detector

Li B , Liu Y , Wang X . Gradient Harmonized Single-stage Detector[J]. 2018.https://github.com/libuyu/GHM_Detection本文认为影响单阶段检测器的训练的本质问题不是不同类别的样本数的差异，而是不同难度样本的分布不均衡。在训练过程中，每个样本产生一个梯度来更新模型的参数，不同样本对参数更新...
复制链接

扫一扫

专栏目录