M2Det

最新推荐文章于 2022-12-03 16:38:23 发布

qq_43152949

最新推荐文章于 2022-12-03 16:38:23 发布

阅读量244

点赞数

分类专栏：论文

本文链接：https://blog.csdn.net/qq_43152949/article/details/103308795

版权

论文专栏收录该内容

26 篇文章

订阅专栏

M2Det

两个缺点：
首先，金字塔中的特征map不具有代表性，因为它们仅仅是为对象分类任务设计的backbone的层次特征构造的。第二，金字塔中的每个特征map仅由backbone的单层构造，几乎只包含单层信息。一般情况下，较深层次的高层次特征对分类子任务具有更高的判别性，而较浅层中的低层特征对目标位置回归子任务有帮助。此外，低级特征更适合描述外观简单的对象。在时间中，具有相似大小的对象实例的外观具有很大的不同。例如，一个交通灯和一个远处的人具有相似的大小，而这个人的外表要复杂度得多，因此，金字塔中的每个特征映射主要或仅由单一级别的特征组成，将导致检测性能不佳。
在这里插入图片描述

本文的目的是建立一个更加有效的特征金字塔来检测不同尺度的物体，同时避免了现有方法的局限性。如图2，我们首先融合backbone提取的多层次特征作为基本特征，然后将其输入到TUM和特征融合模块FFM中，以提取更有代表性、多层次的多尺度特征。每个U型模块中的解码器层都具有相似的深度。最后，我们收集了具有等效尺度的特征映射，构造出最终的特征金字塔，用于目标检测。显然，构成最终特征金字塔的解码器层要比backbong层深的多，也就是说，它们更具有代表性，此外，最终特征金字塔中的每个特征map都由来自多个层次的解码器层组成，因此，我们称之为特征金字塔块多级特征金字塔网络（MLFPN）。

Proposed Method

M2Det的总体结构如图2所示，M2Det使用主干网络和多级特征金字塔网络从输入图像中提取特征，然后类似于ssd，根据学习到的特征生成密集的包围框和类别分数，然后进行nms操作，生成最终结果。MLFPN由三个模块组成，即特征融合模块（FFM），细化U型模块（TUM）和规模化特征聚合模块（SfAM）。FFM v1通过融合主干网的特征map，将语义信息丰富到基本特征中，每个TUM生成一组多尺度特征，然后交替联合TUM和FFMv2s提取多尺度特征，此外，SFAM还通过分级特征级联操作和自适应attention机制将特征聚合到多级特征金字塔中。

Multi-level Feature Pyramid Network

MLFPN包含了三个部分，首先，ffm v1融合了浅层和深层特征来生成基础特征，为MLFPN提供了多层次的语义信息。然后，每个TUM生成几个具有不同比例的特征map，FFMv2融合了以前的TUM的基本特征和最大输出特征映射。并将融合的特征映射提供给下一个TUM，第一个TUM没有任何其他TUM的先验知识，因此它只向X-base学习，输出多级多尺度特征计算如下：
在这里插入图片描述
其中X-base为基础特征，xli表示l-th TUM中第i尺度的特征，L表示TUM数，Tl表示l-th TUM处理，F表示FFM v1处理，第三，SFAM通过分级特征级联操作和通道levelattention机制来聚合多层次的多尺度特征。