目录
AugFPN: Improving Multi-scale Feature Learning for Object Detection
EfficientDet: Scalable and Efficient Object Detection
Dynamic Convolutions: Exploiting Spatial Sparsity for Faster Inference
Dynamic Convolution: Attention over Convolution Kernels
D2Det: Towards High Quality Object Detection and Instance Segmentation
FCOS: Fully Convolutional One-Stage Object Detection
GhostNet: More Features from Cheap Operations
Split to Be Slim: An Overlooked Redundancy in Vanilla Convolution
AugFPN: Improving Multi-scale Feature Learning for Object Detection
针对FPN融合前,融合时,融合后得三个缺陷做出改进
EfficientDet: Scalable and Efficient Object Detection
贡献:BiFPN:为将被融合的特征分配不同的、通过学习得到的权重
轻量化模型:EfficientNet+BiFPN+compound scale
细节:BiFPN设计思路:
①移除只有一个input edge的node,因为这样的input对信息融合没有帮助
②同一层的input直接加给同一层的output
③将②作为一个layer进行堆叠
网络规模大小:
考虑了网络的 width, depth, and resolution 三要素进行调参,得出最适合的网络大小
EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
motivation: sacle up the ConvNet for better acc and efficiency at the same time
solution: balance all dim of width/depth/resolution of network
details:
通过超参数φ来uniform这三个维度,其中α、β、γ是常量。第一步先固定φ=1,选出最优的α、β、γ;第二步再固定α、β、γ,调试φ得出最好的值
Dynamic Convolutions: Exploiting Spatial Sparsity for Faster Inference
想看的不是这篇文章,看错了。
文章提出了只在总要的图片部位做卷积,可以降低计算量。重不重要是通过Gate来判断,而Gate是通过Gumbel-Softmax来训练得到的。
Dynamic Convolution: Attention over Convolution Kernels
动态卷积:在不增加网络深度或宽度的情况下增加模型的表达能力
思路:根据输入图像,自适应地调整卷积参数。如图1所示,静态卷积用同一个卷积核对所有的输入图像做相同的操作,而动态卷积会对不同的图像(如汽车、马、花)做出调整,用更适合的卷积参数进行处理。简单地来说,卷积核是输入的函数。
参数的学习步骤如图2所示:
D2Det: Towards High Quality Object Detection and Instance Segmentation
贡献:dense local regression用于回归目标框
discriminative RoI pooling用于分类
方法:对于Faster RCNN,它会理所当然地把得到的ROI feature作为整体传入全连接层,计算类别和位置。但是在D2Det中,它把ROI feature划为k*k个大小的特征点,对每一个特征点都进行回归计算,一共做了k平方次。在此基础上,引入一个矢量M,对于proposals 的区域和ground truth区域发生重合的,才认为是有效的区域(在M矩阵中设置为1,否则设置为0),在有效区域内的特征点,计算出来的偏移矢量。最后对所有的偏移矢量做平均,得到最终的调整参数。
discriminative RoI pooling则是先对RoI对应的每个bin按照RoI的长宽比例的倍数进行整体偏移(同样偏移后的位置是小数,使用双线性差值来求),然后再pooling
FCOS: Fully Convolutional One-Stage Object Detection
提出了一种全卷积的anchor-free模型。其实这样的anchor-free工作准确来说应该叫anchor box-free,并且提出的方法基本可以称之为anchor point工作。比如这篇FCOS,其实就比anchor box based的方法少了IoU计算,制作gt的时候能快些,至于网络学习,其实还是box regression,和带box的是一样的,另外在post process也没有体现出多少优势,还是要用NMS来处理预测的bbox,但这个以及同期的工作的确表明了anchor free(感觉还是anchor point更准确)方法的前景。
GhostNet: More Features from Cheap Operations
Ghost Module则分为两步操作来获得与普通卷积一样数量的特征图(这里需要强调,是数量一样)。
第一步:少量卷积(比如正常用32个卷积核,这里就用16个,从而减少一半的计算量)
第二步:cheap operations,如图中的Φ表示,Φ是诸如3*3的卷积,并且是逐个特征图的进行卷积(Depth-wise convolutional)。
Split to Be Slim: An Overlooked Redundancy in Vanilla Convolution
作者提出了一个 SPConv 的模块,用来降低常规卷积中的冗余信息。在该模块中,所有的输入通道按比例α分为两部分:representative部分用 k*k的卷积提取重要信息;redundant部分用1*1 的卷积补充细节信息。如下图所示:
作者认为,representative 部分仍可能存在冗余,因此,可以进一步拆分。因此,作者使用使用group-wise和point-wise卷积分别处理,再将结果融合。