SEPC论文阅读

在这里插入图片描述

题目:用于目标检测的金字塔尺度均衡卷积(简称SEPC)

在这里插入图片描述

在这里插入图片描述
图像处理基础总结
跨尺度相关性
在这里插入图片描述

尺度不变性:就是我们在描述一个特征之前,将两张图像都变换到同一个尺度上,然后再在这个统一标准上来描述这个特征。(为了实现尺度不变性,需要给特征加上尺度因子。在进行特征描述的时候,将尺度统一就可以实现尺度不变性了。)
注:尺度不变就是在特征点提取,或者匹配的时候,永远都把握好他就是那么大的存在,不会因为缩放把它变形。

SIFT:尺度不变特征转换,用来侦测与描述影像中的局部性特征,它在空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变量

深度神经网络中特征金字塔与高斯金字塔的区别:
高斯金字塔可应用在深度神经网络上面,但是由于它需要大量的运算和大量的内存。但是我们的特征金字塔可以在速度和准确率之间进行权衡,可以通过它获得更加鲁棒的语义信息。


尺度不变特征变换(SIFT)匹配算法详解:
https://blog.csdn.net/memray/article/details/39234645

在这里插入图片描述
在这里插入图片描述

RetinaNet:2017 CVPR
Subnet:子网络

(紧接着第6页PPT下面的话)但是实际使用中,我们经常观察到不同尺度的物体相互竞争,
使得检测器在不同尺度的性能此高彼低的现象,这些情况不太符合尺度等变特性,这是为什么呢?(见P7中的分析)

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

(本页先说)考虑到FPN的不同层的分辨率不同(不同pyramid level的特征图大小是不同的),我们由此提出金字塔卷积(Pconv)的结构

(接着改页最下面的那句话)实际上是一个跨越尺度和空间维度的三维卷积。如果将每一层的特征表示为1个点,如图a所示,金字塔卷积可以表示为N个不同的2D卷积。
不同的金字塔水平上存在大小的不匹配,空间大小随着金字塔水平的上升而缩小,为了适应这种不匹配,在不同层卷积时,对K个不同的内核设置了不同的步长。

在这里插入图片描述

(对右上角图的解释)金字塔卷积为3-D卷积。三个卷积核(红色,黄色和青色)用于此3-D卷积。
每个内核的卷积步幅随特征图的大小而缩放。框架颜色相同的要素图(例如 蓝色和粉红色)在相同框架颜色的右侧生成特征图。该图像仅用于显示比例,不表示特征图

不同pyramid level的特征图大小是不同的,为了容纳不同的尺寸,在PConv在处理不同的特征图时使用不同的stride,论文采样N=3,首个卷积核的stride为2,最小的的卷积核的stride为0.5。

对公式1的解释:PConv可以表示为公式(1),w1,w0,w-13个独立的2-D卷积核,x为输入的特征图,*s2代表stride为2的卷积核。

对公式2的解释:stride为0.5的卷积核先对特征图双线性上采样2倍,再用stride为1的卷积核进行处理。PConv也使用zero-padding,对于底层和顶层的pyramid level仅需使用公式2的其中两项即可,PConv的计算量大约为原始FPN的1.5倍。

(对上面两张图的一个分析)用特征金字塔相邻三层(P3,P4,P5)举例,在P3上利用stride为2的conv进行卷积,在P4上利用普通conv卷积,P5上普通conv卷积然后upsample,
得到相同大小的特征图然后相加,不难推导,其等效于在特征图上每一点在HW维度卷积后再在尺度空间(P3,P4,P5)进行一次卷积,因此其相当于一个3-D的卷积核。(结合左图的FPN)

在这里插入图片描述

(a)最初的RetinaNet的头部设计;(b)PConv的头部设计。在最终的输出卷积中,
K是锚定框的数量,对于无锚定方法,它是1,而C是分类中的类数。

在这里插入图片描述
在这里插入图片描述

(提出SEPC的原因,可不说)PConv对于不同的level都使用固定的卷积核大小,在高斯金字塔上(模糊程度不严重且高斯核接近特征图缩放比例),PConv能够提取尺度不变的特征。
(提出SEPC的原因,可不说)但实际中,由于多层卷积和非线性操作的存在,特征金字塔的模糊程度比高斯金字塔要严重得多
(特征的缩放程度可能跟特征图大小不成比例),使用固定的卷积核大小很难提取尺度不变的特征。

高斯模糊是一种图像滤波器,它使用正态分布(高斯函数)计算模糊模板,并使用该模板与原图像做卷积运算,达到模糊图像的目的

在这里插入图片描述

SEPC分为两个版本,SEPC-full对P11页图b的Combined head和Extra head加入SEPC,而SEPC-lite则仅对Extra head加入SEPC。

我们做了详尽的消融实验,以确保我们每个模块的有效性.我们选取了FSAF,RetinaNet,FreeAnchor三个有代表性的model验证我们的有效性。如表中所示
可以看到,我们提出的模块在三个model上均有稳定的提升,并且性能提升相比flops与forward速度的增加极具性价比,值得注意的是,虽然我们使用了Dconv,但是性能的提升不仅仅是Dconv带来的,相比head结构全部更换为Dconv,我们的SEPC在速度与性能上都体现出了绝对的优势。
Dconv:可变形卷积

在这里插入图片描述

同时我们选取了FreeAnchor为基础与当前SOTA检测器进行了比较。如表中所示
我们SEPC在mAP45左右的baseline上依然有接近3mAP的提升,
我们在甚至在单尺度测试的条件下得到了一个mAP为50.1的单阶段检测器。

在这里插入图片描述
FPN详解

在这里插入图片描述

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值