R-CNN,Fast-R-CNN,Faster-R-CNN, YOLO, SSD系列，深度学习object detection梳理

本文链接：https://blog.csdn.net/mmc2015/article/details/72957372

本文总结了深度学习目标检测的关键技术，包括R-CNN、Fast-R-CNN、Faster-R-CNN、YOLO及SSD的原理与区别。R-CNN采用selective search获取区域提案，Fast-R-CNN整合特征提取与分类，Faster-R-CNN引入Region Proposal Network，YOLO直接回归边界框与类别概率，SSD则结合多尺度预测与 anchor boxes。这些方法在速度与精度上各有优劣，推动了目标检测的发展。

摘要由CSDN通过智能技术生成

闲的蛋疼，看了一下object detection的经典文章，简单总结一下（因为不做cv，说错了请指出）：

0）object detection的任务：找到图片中的object（给出边框位置，regresion），以及给出object对应的是什么（classification）。一般步骤就是：候选框提取（regions proposal，经典方法是selective search），然后提取region中的特征（cnn），分类（svm、dnn）；最后往往有non-max suppression处理重叠问题。

1）R-CNN按照上面的三个标准步骤依次进行，selective search for region proposals，cnn for features，svm for classification。

2）Fast-R-CNN将后两个步骤合并，selective search for region proposals，cnn对region proposal生成feature map，接着通过ROI（region of interest）层将feature map转换成fc layer，然后对fc layer进行softmax classification以及bounding box regression的多任务训练。

3）Faster-R-CNN将三个步骤合并，region proposal、classification、regression三者共享一个based cnn network。based network之上，接一个Region Proposal Network (RPN)，最后一层产生一个W*H大小的conv feature map用来提取region proposal，具体方法是通过固定大小（3*3）的滑动窗口（就是卷积核）在conv feature map上扫描，对每一个窗口位置，生成一个256-d的intermediate layer，然后产生两个分支，分别对应2k个scores（probability of an object，但是具体哪个类别还不知道，所以需要后面的fast RCNN，为什么是2，因为这里设计的是2-class softmax）和4k个coordinates，其中k=9是每个窗口生成的proposal个数，这k个proposal（叫做anchor）的scale、aspect_ratio是提前确定的。有了预测的2k+4k个结果，就可以和真实的image情况对比，进行训练了，要考虑2k-4k的loss占比情况。从上面的情况看，整个W*H大小的conv feature map可以生成大约W*H*k个proposals。有了region proposals之后，再在based network之上，接一个fast RCNN，对生成的proposal进行检测和识别（这里是具体的classification，要识别出是哪个类）。由于RPN和fast RCNN是一个整体，所以文章选择了迭代训练两者的方法。

4）YOLO是我见过的最elegant的方法（直接回归bounding boxes coordinates和all C class probabilities）。具体如下：先将图片resize成448*448（L*L）大小，将图片划分成S*S个grid（S=7，所以每个64*64大小的sub-image属于一个grid）。然后每个grid负责propose B个bounding box（B=2），每个bounding box对应4个coordinates、1个confidence（表示P(object)*对应的bounding box和any ground truth box的intersection of union(IOU)大小，即P(Object)*IOU^{truth}_{pred}），另外，每个grid还要生成C个conditional class probabilities（表示该grid内部的sub-image包含object时，这个object属于各个类别上的概率，即P(C_{i}|Object)；因为总共有20个类别，所以C=20）。这样，一个image最终产生S*S*(B*5+C)个输出（7*7*(2*5+20)=1470个输出）。然后就是找ground truth进行训练，要考虑不同任务的权重。预测时，使用P(C_{i}|Object)*P(Object)*IOU^{truth}_{pred}找到最大的C_{i}即可。可以看到，YOLO模型非常简单，所以最大的好处是，时间快，做到了实时；另外，由于看到的context信息比较多，多以background很少分错。缺点是特征粒度太粗，small object容易分错，accuracy相对较低（主要错误在于localization，这个也是显而易见的）。===》本人查看并修改了YOLO的源码，确实很经典，而且实现起来很简单，效果也不错。===》据说YOLO-V2版本中，将每个grid生成C个conditional class probabilities（然后让该grid对应的所有bounding boxes共享这C个conditional class probabilities）改成了为每个bounding boxes生成各自独立的C个conditional class probabilities，此时效果有明显提升！！

5）SSD。有人说SSD相当于YOLO（直接回归bounding boxes coordinates和all C class probabilities） + RPN的anchor（每个feature map用一个小窗口扫描，对每个扫描位置生成k个default的bounding boxes） + multi-scale的prediction。个人感觉SSD最大的特点是multi-scale的prediction，从一个image中生成多个不同scale、spatial_ratio的feature maps（具体实现时，就是把网络的最后几层设计成不同的scale，全部作为feature maps），然后在每个feature map上生成需要的数据（bounding boxes、class probabilities等），然后联合训练。具体的，仍然用3*3的窗口对每个feature map进行扫描，在每个扫描位置生成k个不同大小的default bounding boxes，每个boxes对应4个coordinates和C个class probabilities（和YOLO一样，直接是C个类别对应的概率；不同于Faster-R-CNN的2个输出，只能代表是不是object的概率，还需后续classification）。然后就是找ground truth进行训练，要考虑不同任务的权重。可以看到对于M*N的feature map，输出节点数为M*N*K*(C+4)，另外因为有F个feature map，所以还要再乘以F。

这个链接：

https://www.zhihu.com/question/35887527/answer/140239982