R-CNN 最直观的理解
https://blog.csdn.net/weixin_41923961/article/details/80113669
目标检测庖丁解牛
https://bigquant.com/community/t/topic/128929
搞定目标检测(SSD篇)(上)
https://blog.csdn.net/cedi9117/article/details/86508976
搞定目标检测(SSD篇)(下)
https://blog.csdn.net/cedi9117/article/details/86509004
YOLOv3训练自己的数据详细步骤
https://blog.csdn.net/john_bh/article/details/80625220
YOLOv3训练自己的数据(GPU版本)
https://blog.csdn.net/u012135425/article/details/80294884
Yolov3参数理解
https://blog.csdn.net/weixin_42731241/article/details/81474920
基于caffe的SSD目标检测——训练集生成和lmdb文件的制作
https://blog.csdn.net/edogawachia/article/details/81669834
SSD目标检测lmdb数据结构剖析
https://blog.csdn.net/Touch_Dream/article/details/80598901
http://www.pianshen.com/article/200987344/
FastRCNN论文
https://blog.csdn.net/Weidong_of_seu/article/details/83096756
Faster R-CNN
https://blog.csdn.net/u013382233/article/details/87184338
Fast R-CNN使用selective search找出候选框,也非常耗时。Faster R-CNN提出一种全卷积神经网络叫做Region Proposal Network(RPN),用来提取region proposals。
步骤1:将整张图片输入CNN,进行特征提取;
步骤2:用RPN生成anchors,并对其进行筛选和标记,然后通过NMS剔除重叠的anchors,得到最终的region proposals,每张图片生成300个region proposals;
步骤3:把region proposals映射到CNN最后一层卷积的feature map上;
步骤4:通过ROI pooling使每个region proposal生成固定尺寸的feature map;
步骤5:使用softmax loss和smooth L1 loss对分类概率和边框回归进行联合训练。
RPN网络的结构如下图:
下图为Caffe版本的RPN网络图:
RPN的输入为原图片卷积之后得到的feature map,输出就是region proposals。
如何找到region proposals,就涉及到一个anchor的概念。在feature map上添加一个滑窗,即上图中的sliding window,在每个滑窗中假定可以最多找到k个region proposals,这k kk个region proposals可以被参数化为k个相关的box,这就是anchors。anchors是由不同的尺度(scale)和长宽比(aspect ratio)得到。
通过anchors,RPN就可以得到region proposals的信息。这种方式产生的region proposal个数远少于selective search产生的个数,而且质量也有很大的提升。
Faster R-CNN包含四个损失函数:
• RPN calssification(anchor good.bad)
• RPN regression(anchor->proposal)
• Fast R-CNN classification(over classes)
• Fast R-CNN regression(proposal ->box)
训练时采用4步交替训练(4-step alternating training):
1. 单独训练RPN,得到RPN1,CNN1
2. 单独训练Fast R-CNN,结合第一步的region proposal,得到Fast R-CNN1,CNN2
3. fine-tune RPN1 on CNN2,得到RPN2(共享卷积层)
4. fine-tune Fast R-CNN1 on CNN2,结合第三步的region proposal,得到Fast R-CNN2(共享卷积层)