Feature Pyramid Networks for Object Detection(FPN):
![](https://app.yinxiang.com/shard/s18/res/70c98f86-1757-4997-9030-4dc283c7ab32/11528116098_.pic_hd.jpg)
Cascade R-CNN: Delving into High Quality Object Detection:
亮点:设置不同的 IoU 阈值,bbox reg 的级联。
positive(pos) negative(neg)
就是在得到proposals后,设定不同的 IoU 阈值。然后因为阈值不同了,那么根据与阈值 值的大小关系被分成的 pos 和 neg 样本数量就也不同了~
在不同的 stage 中设置依次增大的 IoU 阈值。并且这一层的输入是上一层的 bbox reg 之后的结果( 即上一层的输出,上图红框框出了...)。原因是:因为较小的 IoU 阈值“监控”下的那些 bbox 可能不是很准,即,其与对应 gt 的 IoU 值是蛮小的。在本轮的 stage refine 后,box 会变得更准,使得其与对应 gt 的 IoU 值变大~这样,把他们接着输入到下一 stage,那么它们可能也是可以通过更大 IoU 阈值的筛选,成为 pos 样本的。这使得每一 stage 的 pos 样本数基本可以保证足够(不会因为 IoU 阈值的增大而减少很多...) 这就防止过拟合了。(因为每个 stage 中的样本都很丰富,尤其 pos 样本~)
文章主要是在 IoU 阈值上寻求提升点,其实没考虑 multi-scale 改善小目标检测的效果~不过,paper最后提及了它们把 FPN 做为 baseline network。 emmm... 这就很强了,把两个 object detector 提升点结合起来,得到最佳效果!
以上两篇的 data augmentation 都没什么惊艳的操作~...
DetNet: A Backbone network for Object Detection 一个专门为 object detector 设计的基础 backbone network。
参考链接:知乎传送门
神奇的DetNet的主要亮点我认为是两个:
1. dilate conv的引入,使得feature map的空间分辨率和感受野这两个矛盾量得到“和平共处”。
2. 上图中的那个1x1 conv的作用,使得 in 和 out 间出现较大的差异(out = 直接过来的in + in 经过一系列conv的结果 ),相当于是构建了一个新的语义阶段用于 object detector。
当然还有一些别的设计细节,如:因为stage4之后就没有 feature map 的 size 减小了,所以参数量一下子就上去了。所以从 stage4 开始,输出的 feature map 数量都统一成256,而不是像往常一样越到后面越大(256 >> 512 >> 1024.....)
Mask R-CNN 亮点是RoIAlign 和 mask module
主框架见上图。中间的RoIAlign是paper的一大提升。上一stage是类似Fast R-CNN一样的检测结构,下一stage是添加的mask module,使得网络可以实现segmentation,使用的是小FCN实现。
上图是RoIAlign的实现。思想就是解决 RoI 与 feature map 无法“完美”对齐的问题。不再把浮点的坐标直接整数化(包括RoI映射到feature map 的时候和进行RoI pool时候对每个bin的分割 这两个过程均不把坐标简单粗暴的去整数化。) 而是坐标不变,我们进行双线性插值以对浮点数坐标 进行赋 pixel value。
paper亮点2是添加的mask module。可实现instance segmentation。并且loss使用的sigmoid 而不是softmax~
更多细节有待补充~....
运用 Domain Adaptive 思想的 detector:Domain Adaptive Faster R-CNN for Object Detection in the Wild
亮点在于 domain adaptation,在例如自动驾驶这样的实用场景,target image 的 label 几乎是没有的,所以 fine tune就不太行。需要把 source domain(含 label,如一些数据集中的 images) 和 target domain(实际场景中的 images,完全不 label)就行域适配。paper 实现了 image-level 和 instance-level 的适配。细节.....还请移步paper~
结合 GAN 的 detector: A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection
亮点是用 GSN gen 带遮挡和形变的images ASDN、ASTN,得到 hard samples,然后联合 Faster R-CNN训练。另一亮点是结合了OHEM思想(online hard example mining)如下图红色的那部分操作~
ASDN