2020cv顶会阅读ing笔记

最新推荐文章于 2024-01-17 11:09:19 发布

石湖一叶

最新推荐文章于 2024-01-17 11:09:19 发布

阅读量786

点赞数 2

分类专栏：深度学习文章标签：卷积深度学习人工智能

本文链接：https://blog.csdn.net/CHN_ZHero/article/details/109436921

版权

深度学习专栏收录该内容

14 篇文章 3 订阅

订阅专栏

AugFPN: Improving Multi-scale Feature Learning for Object Detection

EfficientDet: Scalable and Efficient Object Detection

EfficientNet: Rethinking Model Scaling for Convolutional Neural Networksmotivation: sacle up the ConvNet for better acc and efficiency at the same time

Dynamic Convolutions: Exploiting Spatial Sparsity for Faster Inference

Dynamic Convolution: Attention over Convolution Kernels

D2Det: Towards High Quality Object Detection and Instance Segmentation

FCOS: Fully Convolutional One-Stage Object Detection

GhostNet: More Features from Cheap Operations

Split to Be Slim: An Overlooked Redundancy in Vanilla Convolution

AugFPN: Improving Multi-scale Feature Learning for Object Detection

针对FPN融合前，融合时，融合后得三个缺陷做出改进

EfficientDet: Scalable and Efficient Object Detection

贡献：BiFPN：为将被融合的特征分配不同的、通过学习得到的权重

轻量化模型：EfficientNet+BiFPN+compound scale

细节：BiFPN设计思路：

①移除只有一个input edge的node，因为这样的input对信息融合没有帮助

②同一层的input直接加给同一层的output

③将②作为一个layer进行堆叠

网络规模大小：

考虑了网络的 width, depth, and resolution 三要素进行调参，得出最适合的网络大小

EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
motivation: sacle up the ConvNet for better acc and efficiency at the same time

solution: balance all dim of width/depth/resolution of network

details：

通过超参数φ来uniform这三个维度，其中α、β、γ是常量。第一步先固定φ=1，选出最优的α、β、γ；第二步再固定α、β、γ，调试φ得出最好的值

Dynamic Convolutions: Exploiting Spatial Sparsity for Faster Inference

想看的不是这篇文章，看错了。

文章提出了只在总要的图片部位做卷积，可以降低计算量。重不重要是通过Gate来判断，而Gate是通过Gumbel-Softmax来训练得到的。

Dynamic Convolution: Attention over Convolution Kernels

动态卷积：在不增加网络深度或宽度的情况下增加模型的表达能力

思路：根据输入图像，自适应地调整卷积参数。如图1所示，静态卷积用同一个卷积核对所有的输入图像做相同的操作，而动态卷积会对不同的图像（如汽车、马、花）做出调整，用更适合的卷积参数进行处理。简单地来说，卷积核是输入的函数。

参数的学习步骤如图2所示：

D2Det: Towards High Quality Object Detection and Instance Segmentation

贡献：dense local regression用于回归目标框

discriminative RoI pooling用于分类

方法：对于Faster RCNN，它会理所当然地把得到的ROI feature作为整体传入全连接层，计算类别和位置。但是在D2Det中，它把ROI feature划为k*k个大小的特征点，对每一个特征点都进行回归计算，一共做了k平方次。在此基础上，引入一个矢量M，对于proposals 的区域和ground truth区域发生重合的，才认为是有效的区域（在M矩阵中设置为1，否则设置为0），在有效区域内的特征点，计算出来的偏移矢量。最后对所有的偏移矢量做平均，得到最终的调整参数。

discriminative RoI pooling则是先对RoI对应的每个bin按照RoI的长宽比例的倍数进行整体偏移(同样偏移后的位置是小数，使用双线性差值来求)，然后再pooling

FCOS: Fully Convolutional One-Stage Object Detection

提出了一种全卷积的anchor-free模型。其实这样的anchor-free工作准确来说应该叫anchor box-free，并且提出的方法基本可以称之为anchor point工作。比如这篇FCOS，其实就比anchor box based的方法少了IoU计算，制作gt的时候能快些，至于网络学习，其实还是box regression，和带box的是一样的，另外在post process也没有体现出多少优势，还是要用NMS来处理预测的bbox，但这个以及同期的工作的确表明了anchor free（感觉还是anchor point更准确）方法的前景。