M2Det

M2Det

两个缺点:
首先,金字塔中的特征map不具有代表性,因为它们仅仅是为对象分类任务设计的backbone的层次特征构造的。第二,金字塔中的每个特征map仅由backbone的单层构造,几乎只包含单层信息。一般情况下,较深层次的高层次特征对分类子任务具有更高的判别性,而较浅层中的低层特征对目标位置回归子任务有帮助。此外,低级特征更适合描述外观简单的对象。在时间中,具有相似大小的对象实例的外观具有很大的不同。例如,一个交通灯和一个远处的人具有相似的大小,而这个人的外表要复杂度得多,因此,金字塔中的每个特征映射主要或仅由单一级别的特征组成,将导致检测性能不佳。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
本文的目的是建立一个更加有效的特征金字塔来检测不同尺度的物体,同时避免了现有方法的局限性。如图2,我们首先融合backbone提取的多层次特征作为基本特征,然后将其输入到TUM和特征融合模块FFM中,以提取更有代表性、多层次的多尺度特征。每个U型模块中的解码器层都具有相似的深度。最后,我们收集了具有等效尺度的特征映射,构造出最终的特征金字塔,用于目标检测。显然,构成最终特征金字塔的解码器层要比backbong层深的多,也就是说,它们更具有代表性,此外,最终特征金字塔中的每个特征map都由来自多个层次的解码器层组成,因此,我们称之为特征金字塔块多级特征金字塔网络(MLFPN)。

Proposed Method

M2Det的总体结构如图2所示,M2Det使用主干网络和多级特征金字塔网络从输入图像中提取特征,然后类似于ssd,根据学习到的特征生成密集的包围框和类别分数,然后进行nms操作,生成最终结果。MLFPN由三个模块组成,即特征融合模块(FFM),细化U型模块(TUM)和规模化特征聚合模块(SfAM)。FFM v1通过融合主干网的特征map,将语义信息丰富到基本特征中,每个TUM生成一组多尺度特征,然后交替联合TUM和FFMv2s提取多尺度特征,此外,SFAM还通过分级特征级联操作和自适应attention机制将特征聚合到多级特征金字塔中。

Multi-level Feature Pyramid Network

MLFPN包含了三个部分,首先,ffm v1融合了浅层和深层特征来生成基础特征,为MLFPN提供了多层次的语义信息。然后,每个TUM生成几个具有不同比例的特征map,FFMv2融合了以前的TUM的基本特征和最大输出特征映射。并将融合的特征映射提供给下一个TUM,第一个TUM没有任何其他TUM的先验知识, 因此它只向X-base学习,输出多级多尺度特征计算如下:
在这里插入图片描述
其中X-base为基础特征,xli表示l-th TUM中第i尺度的特征,L表示TUM数,Tl表示l-th TUM处理,F表示FFM v1处理,第三,SFAM通过分级特征级联操作和通道levelattention机制来聚合多层次的多尺度特征。

FFMs融合了M2Det中不同层次的特征,这对于构建最终的多层次特征金字塔至关重要。它们使用1x1卷积来压缩输入特征的通道,并使用级联操作来聚合这些特征映射,特别是FFMv1采用两幅主干网尺度不同的特征映射作为输入,在级联操作前,采用一次上采样操作将深度特征恢复到相同的尺度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值