Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression阅读笔记

不知道叫啥好一点

于 2020-12-29 22:44:31 发布

阅读量897

点赞数 1

分类专栏：目标检测文章标签： DIoU CIoU

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/A_A666/article/details/111916155

版权

C/DIoU Loss阅读笔记

（一）Title

在这里插入图片描述
前言：作者将GIoU的思想进行概括，得到了一个统一的描述框架 $\mathcal{L}=1-I o U+\mathcal{R}\left(B, B^{g t}\right)$ ，并基于该描述框架，提出了DIoU和CIoU，考虑了将中心点距离以及纵横比引入到IoU损失的正则项中。是一篇好文章，如果能够对于CIoU引入的长宽比为什么要采取 $v=\frac{4}{\pi^{2}}\left(\arctan \frac{w^{g t}}{h^{g t}}-\arctan \frac{w}{h}\right)^{2}$ 这种形式进行说明就更加完美了。

（二）Summary

背景概述
目标检测中的bounding box回归任务往往采取的方式借助损失去回归bounding boxes的参数(位置/长/宽),但是它并不适用于评估度量(Intersection over Union,IoU)。
同时作者指出当前研究者提出的IoU度量(IoU Loss 以及 Generalized IoU Loss)上存在的一些问题：

收敛慢slow convergence
回归不准确，inaccurate regression

主要内容
作者在本文中提出的Distance-IoU(DIoU loss)中通过引入预测box和真实box之间的归一化距离，使得收敛速度加快。并且作者提出的 $C I o U$ 结合了bounding box回归中3个几何因素：overlap area，central point distancce以及长宽比，来达到更快的收敛和更佳的性能，并且DIoUcan be easily adopted into non-maximum suppression(NMS)中。

本文中提出的Distance-IoU(DIoU) loss,具体来说是在IoU Loss损失上增加一个惩罚项，直接最小化两个bounding box中心点之间的归一化距离，从而实现比GIoU更快地收敛。同时作者提出一个好的bounding box回归损失应该考虑到重叠面积，中心点距离以及纵横比，通过结合这些几何度量，作者进一步提出了Complete IoU(CIoU),获得更快的收敛速度以及更好的性能。

主要贡献

提出的DIoU，相比于GIoU和IoU Loss具有更快的收敛速度
同时考虑重叠面积，中心点距离，以及长宽比这三个几何度量，提出CIoU，能够更快更好地进行bounding box的回归
在NMS中使用DIoU，能够提升抑制多余bounding boxes的能力
所提出的方法能够结合到最先进的目标检测算法中，实现显著的性能提升。

（三）Research Object

作者将GIoU的思想进行概括，得到了一个统一的描述框架 $\mathcal{L}=1-I o U+\mathcal{R}\left(B, B^{g t}\right)$ ，并基于该描述框架，提出了DIoU和CIoU，考虑了将中心点距离以及纵横比引入到IoU损失的正则项中。

（四）Problem Statement

使用IoU Loss无法解决bounding box不存在overlap时的优化问题，而GIoU的回归过程分两个阶段：(1.增加bounding box的面积，2.预测box和目标box存在重叠后利用IoU项进行回归)，导致GIoU的收敛比较缓慢，从而引出本文作者提出的两个问题：

为了最小化预测box和目标box的归一化距离是否可行?(博主本人关于此内容的猜想是在IoU回归的同时增加一项位置损失)
当与目标框有重叠甚至包含时，如何使回归更加准确和快速？

（五）Method

作者将GIoU以及本文的DIoU和CIoU使用统一的形式进行表示：
$\mathcal{L}=1-I o U+\mathcal{R}\left(B, B^{g t}\right)$
其中 $\mathcal{R}\left(B, B^{g t}\right)$ 表示的是正则化函数，是关于预测box $B$ 和目标box $B^{gt}$ 的函数

Distance-IoU Loss
在这里插入图片描述

将正则项定义为：
$\mathcal{R}_{D I o U}=\frac{\rho^{2}\left(\mathbf{b}, \mathbf{b}^{g t}\right)}{c^{2}}$
其中 $\mathrm{b} \text { and } \mathbf{b}^{g t}$ 分别表示 $\text { and } B^{g t}$ 的中心点， $\rho(\cdot)$ 表示的是欧拉距离，此处c两个box最小闭包矩形的对角线长度，然后，损失函数就变成了：
$\mathcal{L}_{D I o U}=1-I o U+\frac{\rho^{2}\left(\mathbf{b}, \mathbf{b}^{g t}\right)}{c^{2}}$

最低0.47元/天解锁文章

不知道叫啥好一点

博客等级

码龄8年

131
原创

257
点赞

823
收藏

125
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression阅读笔记

下一篇：: A Simple Baseline for multi-object Tracking(FairMOT)论文阅读笔记

最新评论

Learning to Track with Object Permanence阅读笔记
laser_yusuru: 写的太好了，但是这个疑问就是说有没有大佬解决一下
MOTR: End-to-End Multiple-Object Tracking with TRansformer阅读笔记
坚持努力不放弃: 现在有GTs,track queries,detect queries。Track queries不需要使用bipartite matching进行匹配,follow the same assignment of previous frames(这里说的比较抽象，实际上应该是当前已有的track queries中在之前已经将gt的label给到这儿了，接只需要确定当前track queries中和gt id对应上的那个就是要track queries需要对应的gt，如果GTs中没有能够同track queries对应上的,则将当前的track queries设置成无效，应该是将该track query删除)，接着剩下的没有匹配上的就看成是detect queries，将detect queries同剩下的GTs做一次匈牙利匹配，也就是一一对应上。 ———————————————— 你好，你说的这段内容，我还是有些没看明白，我想分享一下我的见解，你看我说的是否是你表达的这个意思在经过编码器之后，提取了图像的特征，同时初始化了固定长度的检测查询，再加上上一帧的跟踪查询，一同输入到解码器，通过自注意力的查询交互，跟踪查询首先已经跟真实框匹配了，检测查询只会和剩下的真实框进行匹配最后输出跟踪查询，以及只有新生目标的检测查询这大概就是我的理解，你能再说说你的看法吗
Verilog刷题-10-Wire_dec
zzzzzzzzzzzzzzzzh: 下午学习了一下综合软件，这个题目用三条wire和两条wire综合出来的RTL网表是一样的。没有节约什么资源。
Verilog刷题-10-Wire_dec
zzzzzzzzzzzzzzzzh: 少写一个wire有少用资源吗，我记得有工具可以综合出来实际电路图，2个wire和3个wire应该没差吧，我还不会用综合工具，以上是我的猜测。
Gaussian Bounding Boxes and Probabilistic Intersection-over-Union for Object Detection阅读笔记
李小小.: 原论文中说了，训练到一半的时候切换到L1损失。For the experiments with our loss functions, we defined a default setup where we start training with L2 loss for half of the total iterations, and then switch to L1.

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。