R-CNN 系列论文笔记

最新推荐文章于 2023-03-13 17:42:58 发布

飞奔的小猎豹

最新推荐文章于 2023-03-13 17:42:58 发布

阅读量112

点赞数

文章标签：神经网络图像识别深度学习计算机视觉

本文链接：https://blog.csdn.net/qq_24694927/article/details/103196054

版权

R-CNN 系列论文笔记

参考资料：
https://www.cnblogs.com/skyfsm/p/6806246.html
https://www.cnblogs.com/gujianhan/p/6035514.html
https://blog.csdn.net/qq_36289191/article/details/83893335

普通的深度学习算法主要用来做分类，而在实际应用中还有目标定位和目标检测
单独的卷积神经网络都能进行图像识别的任务（如Alex，VGG等），但要进行目标检测则需要加上额外的功能。

定位问题的思路有：
a. 使用滑动窗口的传统方法:

利用不同尺寸的滑动窗口框住图中的某一部分作为候选区域；
提取候选区域相关的视觉特征。比如人脸检测常用的Harr特征；行人检测和普通目标检测常用的HOG特征等；
利用分类器进行识别，比如常用的SVM模型。

b. 看成回归问题，进行坐标回归

步骤1: 先解决简单问题，搭一个识别图像的神经网络（AlexNet VGG GoogleLenet）
步骤2: 在上述神经网络的尾部展开（也就说CNN前面保持不变，我们对CNN的结尾处作出改进：加了两个头：“分类头”和“回归头”）成为classification + regression模式
步骤3: Regression那个部分用欧氏距离损失使用SGD训练
步骤4: 预测阶段把2个头部拼上完成不同的功能

c. 取窗口图像

还是刚才的classification + regression思路
咱们取不同的大小的“框”
让框出现在不同的位置，得出这个框的判定得分
取得分最高的那个框

目前，深度学习相关的目标检测方法也可以大致分为两派：

基于区域提名的，如R-CNN、SPP-net、Fast R-CNN、Faster R-CNN、R-FCN；
端到端（End-to-End），无需区域提名的，如YOLO、SSD。

基于区域定位的方法：

滑动窗口（穷举法），穷举不同长宽比的框，冗余度太高。
规则块（固定窗口大小），如小猿搜题因文字大小方正且固定，适合特殊场景。
选择性搜索，自底向上合并相邻的重叠区域，从而减少冗余。

选择性搜索算法：

输入: 一张图片
 
输出：候选的目标位置集合L
 
算法：
 
1: 利用过切分方法得到候选的区域集合R = {r1,r2,…,rn}
 
2: 初始化相似集合S = ϕ
 
3: foreach 邻居区域对(ri,rj) do
 
4:     计算相似度s(ri,rj)
 
5:     S = S  ∪ s(ri,rj)
 
6: while S not=ϕ do
 
7:     得到最大的相似度s(ri,rj)=max(S)
 
8:     合并对应的区域rt = ri ∪ rj
 
9:     移除ri对应的所有相似度：S = S\s(ri,r*)
 
10:    移除rj对应的所有相似度：S = S\s(r*,rj)
 
11:    计算rt对应的相似度集合St
 
12:    S = S ∪ St
 
13:    R = R ∪ rt
 
14: L = R中所有区域对应的边框