英文论文（sci）解读复现【NO.16】OTA:目标检测的最优传输分配

最新推荐文章于 2024-05-27 09:51:08 发布

人工智能算法研究院

最新推荐文章于 2024-05-27 09:51:08 发布

阅读量686

点赞数

分类专栏：英文论文解读复现文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/m0_70388905/article/details/131014772

版权

英文论文解读复现专栏收录该内容

25 篇文章 63 订阅

订阅专栏

此前出了目标检测算法改进专栏，但是对于应用于什么场景，需要什么改进方法对应与自己的应用场景有效果，并且多少改进点能发什么水平的文章，为解决大家的困惑，此系列文章旨在给大家解读发表高水平学术期刊中的 SCI论文，并对相应的SCI期刊进行介绍，帮助大家解答疑惑，助力科研论文投稿。解读的系列文章，本人会进行 创新点代码复现，有需要的朋友可关注私信我获取。

一、摘要

在目标检测中，标签分配的最新进展主要是为每个ground-truth (gt)目标独立定义正/负训练样本。在本文中，我们创新地从全局的角度重新审视标签分配，并提出将分配程序作为一个最优运输(OT)问题-一个在优化理论中被充分研究的主题。具体来说，我们将每个需求方(锚)和供应商(gt)对之间的单位运输成本定义为它们的分类和回归损失的加权和。得到最优分配方案后，将其转化为运输成本最小的最优运输方案，通过Sinkhorn-Knopp 迭代求解。在COCO 上，单个FCOS-ResNet-50
检测器配备最优传输分配(OTA)，在1×调度下mAP可达40.7%，优于现有的所有分配方法。在COCO 和CrowdHuman上进行的大量实验进一步验证了我们提出的OTA的有效性，特别是在人群场景下的优势。该代码可以在https: //github.com/Megvii-BaseDetection/OTA上获得。

二、网络模型及核心创新点

1.最佳运输

2.标签分配OT

3.先进设计-中心优先

三、数据集

在本节中，我们在MS COCO 2017[22]上进行了大量的实验，其中包含了大约 118k、5k 和 20k 的图像，分别用于 train、val和 test-dev 集。

四、实验效果（部分展示）

对于消融研究，我们在训练集上训练探测器，并报告在 val 集上的性能。在测试开发集上与其他方法进行了比较。我们还在 CrowdHuman[35]验证集上将 OTA与其他方法进行比较，以证明OTA在人群场景中的优越性。

（1）消融实验

个别成分的影响。我们验证了我们提出的方法中每个组件的有效性。为了进行公平比较，将所有检测器的回归损失乘以 2，这被认为是在高借据阈值时提高AP 的一个有用的技巧。
从表1中可以看出，当不采用辅助分支时，OTA比FCOS多出0.9%的AP(39.2%比 38.3%)。在两者都增加了借据分支后，这一差距几乎保持不变(分别为 39.5% vs . 40.3%和 38.8% vs .39.6%，有无中心之前)。最后，动态 k 将AP 推至 40.7%的新水平。在整篇论文中，我们强调了OTA可以同时应用于基于锚的和无锚的探测器。因此，我们也在 retanet上采用OTA，每个特征图上的每个位置只有一个方形锚点。如表 1所示，OTA- fcos 和OTA- retinanet 的AP值完全相同，说明OTA在基于锚的和无锚的检测器上都具有适用性。

（2）对比实验

我们将我们的最终模型与其他先进的单级探测器在 MSCOCO测试开发。在之前的作品[21,38]中，我们在640到800的范围内随机缩放图像的短边。此外，我们将总迭代数翻倍至180K，学习速率变化率点按比例缩放。其他设置与[21,38]一致。

如表 5 所示，我们使用 ResNet-101-FPN的方法获得了 45.3%的AP，优于其他所有具有相同主干的方法，包括 ATSS (43.6%AP)、AutoAssign (44.5% AP)和 PAA (44.6% AP)。注意，对于PAA，我们删除了评分投票程序，以便在不同标签分配策略之间进行公平比较。使用 ResNeXt- 64x4d-101-FPN[43]，可实现OTA的性能为了证明我们的方法与其他先进的目标检测技术的兼容性，我
们采用了变形卷积网络(Deformable Convolutional Networks,DCN)[54]到ResNeXt 骨干网以及检测头的最后一个卷积层。最后，通过多尺度测试技术，我们的最佳模型达到了 51.5%的AP。

五、实验结论

本文提出了一种基于标签分配策略的最优运输分配(OTA)理论egy。OTA将对象检测中的标签分配过程定义为一个最优传输问题，目标是以最小的传输成本将标签从地面真实对象和背景传输到锚点。为了确定每个 gt 所需要的正标签数量，我们进一步提出了一种基于预测包围盒与 gt 之间的 IoU 值的简单估计策略。由于 OTA 能够很好地处理模糊锚点的分配，因此在CrowdHuman数据集上的性能也大大超过了其他所有单级检测器，显示出了较强的泛化能力。

注：论文原文出自OTA: Optimal Transport Assignment for Object Detection本文仅用于学术分享，如有侵权，请联系后台作删文处理。

解读的系列文章，本人已进行创新点代码复现，有需要的朋友欢迎关注私信我获取 ❤ 。

人工智能算法研究院

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
英文论文（sci）解读复现【NO.16】OTA:目标检测的最优传输分配

在目标检测中，标签分配的最新进展主要是为每个ground-truth (gt)目标独立定义正/负训练样本。在本文中，我们创新地从全局的角度重新审视标签分配，并提出将分配程序作为一个最优运输(OT)问题-一个在优化理论中被充分研究的主题。
复制链接

扫一扫