小黑导读
论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。
摘要
最近的一阶段对象检测器遵循逐像素预测方法,预测对象类别分数和从每个单一网格位置的边界位置。但是,对于不同的目标,最适合推断的位置,即对象的类别和边界,通常是不同的。因此,从相同的网格位置预测所有这些目标可能导致次优结果。本文分析了对象类别和边界的合适推理位置,提出了一种预测-目标解耦检测器PDNet,建立了更灵活的检测范式。作者的PDNet具有预测解耦机制,在不同的位置分别编码不同的目标。利用动态边界点和语义点两组动态点,设计了可学习的预测收集模块,对有利区域的预测进行收集和聚合,便于定位和分类。作者采用两步策略来学习这些动态点位置,首先对不同目标的先验位置进行估计,然后网络在更好地感知目标属性的情况下进一步预测这些位置的残差。在MS COCO基准上的大量实验证明了作者的方法的有效性和效率。以单个ResNeXt-64x4d-101作为骨干,作者的检测器通过单尺度测试实现48.7个AP,在相同的实验设置下,其性能明显优于最先进的方法。此外,作者的检测器作为一个一级框架是高效的。作者的代码将被公开。
论文创新点
总的来说,这项工作的贡献是:
作者分析了传统一级检测器的密集预测,发现用于推断目标类别和边界位置的最佳位置是不同的。受此启发,作者提出了基于预测解耦机制的PDNet,以灵活地收集和聚合来自不同位置的不同目标的预测。
作者设计了两组动态点,即动态边界点和语义点,并提出了两步动态点生成策略,以方便学习适合的点位置进行定位和分类。
没有铃铛和哨子,作者的方法在MS COCO基准上实现了最先进的性能。以单个ResNeXt-64x4d-101为骨干,作者的检测器在单尺度测试中实现了48.7个AP,在相同的实验设置下明显优于其他方法。
框架结构
06 = 9网格位置图3,PDNet的整体网络架构
PDNet基于特征提取主干和特征金字塔网络(FPN),从FPN扩展多个检测头,实现多尺度密集检测。在检测头中,密集预测步骤首先生成用于分类和定位的密集预测图,这与大多数传统的单阶段方法相似。作者的预测映射沿着通道维度进行分割,其中不同的通道为每个位置编码相应的不同目标。具体来说,回归图切片为绿色,其中,包含对象边界框四边的相对偏移量的密集预测,而分类地图切片黄色部分,包含不同语义区域的密集分类分数。在获得这些密集预测之后,作者对每个网格位置在两组动态点(来自两步动态点生成模块)的指导下进行预测收集,从各自有利的位置收集预测得到分类分数和边界框。
实验结果
用于定位对象边界框的左、上、右和下侧面的回归图的可视化。为了清楚地演示,作者只显示边界区域的预测偏移量。作者可以看到,从物体边缘附近的网格的位置偏移精确地匹配剩余距离到相应的边界框边缘。
人员分类图的可视化
这些分类图在这个人的不同区域产生强烈的激活,表明它们分别建模了不同对象区域的语义信息。
在MS COCO val2017集上可视化一些检测结果。最后的对象边界框用绿色表示,预测的动态边界点和语义点分别用绿色和橙色表示。动态边界点(绿色)位于物体边缘附近,在那里可以准确地推断出边界框的边界。动态语义点(橙色)主要分布在对象的不同部位,有利于对象分类。
结论
在这项工作中,作者提出了一种精确和高效的目标检测器PDNet,它可以推断出不同的目标(即目标类别和边界位置)在其相应的适当位置。具体来说,作者在密集预测方法的基础上,提出了一种基于预测解耦机制的PDNet,可以灵活地从不同位置收集不同的目标预测,并将其聚合为最终的检测结果。此外,作者设计了两组动态点,即动态边界点和语义点,并结合两步生成策略,以方便学习适合的推理位置进行定位和分类。在MS COCO基准上的大量实验证明了作者的方法具有最先进的性能和效率。
论文链接:https://arxiv.org/pdf/2104.13876.pdf
—END—
声明:部分内容来源于网络,仅供读者学术交流之目的。文章版权归原作者所有。如有不妥,请联系删除。
往期精彩回顾
适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419,加入微信群请扫码