Object Detection.... (更新中....)

最新推荐文章于 2022-11-01 09:11:16 发布

jiachen0212

最新推荐文章于 2022-11-01 09:11:16 发布

阅读量880

点赞数 1

分类专栏：目标检测 dl 文章标签： Object Detection cvpr2018

本文链接：https://blog.csdn.net/jiachen0212/article/details/80561509

版权

dl 同时被 2 个专栏收录

9 篇文章 2 订阅

订阅专栏

目标检测

7 篇文章 0 订阅

订阅专栏

Feature Pyramid Networks for Object Detection(FPN)：

参考链接：知乎传送门 paper

主要的亮点在于：进行了multi-scale。有别于 SSD 的 multi-scale 是，它在每相邻的两层间做 feature map 融合。并且一层层这样自高层往浅层的融合下去，并且每一层融合后独立的去做detector(RPN)～。可解决/减轻小目标检测中存在的卷积神经网络分辨率和语义化程度之间的矛盾问题。

Cascade R-CNN: Delving into High Quality Object Detection:

参考链接：知乎传送门 paper

亮点：设置不同的 IoU 阈值，bbox reg 的级联。

positive(pos) negative(neg)

就是在得到proposals后，设定不同的 IoU 阈值。然后因为阈值不同了，那么根据与阈值值的大小关系被分成的 pos 和 neg 样本数量就也不同了～

在不同的 stage 中设置依次增大的 IoU 阈值。并且这一层的输入是上一层的 bbox reg 之后的结果( 即上一层的输出，上图红框框出了...)。原因是：因为较小的 IoU 阈值“监控”下的那些 bbox 可能不是很准，即，其与对应 gt 的 IoU 值是蛮小的。在本轮的 stage refine 后，box 会变得更准，使得其与对应 gt 的 IoU 值变大～这样，把他们接着输入到下一 stage，那么它们可能也是可以通过更大 IoU 阈值的筛选，成为 pos 样本的。这使得每一 stage 的 pos 样本数基本可以保证足够(不会因为 IoU 阈值的增大而减少很多...) 这就防止过拟合了。(因为每个 stage 中的样本都很丰富，尤其 pos 样本～)

文章主要是在 IoU 阈值上寻求提升点，其实没考虑 multi-scale 改善小目标检测的效果～不过，paper最后提及了它们把 FPN 做为 baseline network。 emmm... 这就很强了，把两个 object detector 提升点结合起来，得到最佳效果！

以上两篇的 data augmentation 都没什么惊艳的操作～...

DetNet: A Backbone network for Object Detection 一个专门为 object detector 设计的基础 backbone network。

参考链接：知乎传送门

paper

神奇的DetNet的主要亮点我认为是两个：

1. dilate conv的引入，使得feature map的空间分辨率和感受野这两个矛盾量得到“和平共处”。

2. 上图中的那个1x1 conv的作用，使得 in 和 out 间出现较大的差异(out = 直接过来的in + in 经过一系列conv的结果 )，相当于是构建了一个新的语义阶段用于 object detector。

当然还有一些别的设计细节，如：因为stage4之后就没有 feature map 的 size 减小了，所以参数量一下子就上去了。所以从 stage4 开始，输出的 feature map 数量都统一成256，而不是像往常一样越到后面越大(256 >> 512 >> 1024.....)

Mask R-CNN 亮点是RoIAlign 和 mask module

参考链接：paper 知乎1 知乎2

主框架见上图。中间的RoIAlign是paper的一大提升。上一stage是类似Fast R-CNN一样的检测结构，下一stage是添加的mask module，使得网络可以实现segmentation，使用的是小FCN实现。

上图是RoIAlign的实现。思想就是解决 RoI 与 feature map 无法“完美”对齐的问题。不再把浮点的坐标直接整数化(包括RoI映射到feature map 的时候和进行RoI pool时候对每个bin的分割这两个过程均不把坐标简单粗暴的去整数化。) 而是坐标不变，我们进行双线性插值以对浮点数坐标进行赋 pixel value。

paper亮点2是添加的mask module。可实现instance segmentation。并且loss使用的sigmoid 而不是softmax～

更多细节有待补充～....

运用 Domain Adaptive 思想的 detector：Domain Adaptive Faster R-CNN for Object Detection in the Wild

参考链接：知乎传送门 paper

亮点在于 domain adaptation，在例如自动驾驶这样的实用场景，target image 的 label 几乎是没有的，所以 fine tune就不太行。需要把 source domain(含 label，如一些数据集中的 images) 和 target domain(实际场景中的 images，完全不 label)就行域适配。paper 实现了 image-level 和 instance-level 的适配。细节.....还请移步paper～

结合 GAN 的 detector： A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection

参考链接：博客 paper

亮点是用 GSN gen 带遮挡和形变的images ASDN、ASTN，得到 hard samples，然后联合 Faster R-CNN训练。另一亮点是结合了OHEM思想(online hard example mining)如下图红色的那部分操作～