R-CNN 系列论文笔记

R-CNN 系列论文笔记

参考资料:
https://www.cnblogs.com/skyfsm/p/6806246.html
https://www.cnblogs.com/gujianhan/p/6035514.html
https://blog.csdn.net/qq_36289191/article/details/83893335

普通的深度学习算法主要用来做分类,而在实际应用中还有目标定位和目标检测
单独的卷积神经网络都能进行图像识别的任务(如Alex,VGG等),但要进行目标检测则需要加上额外的功能。

定位问题的思路有:
a. 使用滑动窗口的传统方法:

  • 利用不同尺寸的滑动窗口框住图中的某一部分作为候选区域;
  • 提取候选区域相关的视觉特征。比如人脸检测常用的Harr特征;行人检测和普通目标检测常用的HOG特征等;
  • 利用分类器进行识别,比如常用的SVM模型。

b. 看成回归问题,进行坐标回归

  • 步骤1: 先解决简单问题, 搭一个识别图像的神经网络(AlexNet VGG GoogleLenet)
  • 步骤2: 在上述神经网络的尾部展开(也就说CNN前面保持不变,我们对CNN的结尾处作出改进:加了两个头:“分类头”和“回归头”)成为classification + regression模式
  • 步骤3: Regression那个部分用欧氏距离损失使用SGD训练
  • 步骤4: 预测阶段把2个头部拼上完成不同的功能

c. 取窗口图像

  • 还是刚才的classification + regression思路
  • 咱们取不同的大小的“框”
  • 让框出现在不同的位置,得出这个框的判定得分
  • 取得分最高的那个框

目前,深度学习相关的目标检测方法也可以大致分为两派:

  • 基于区域提名的,如R-CNN、SPP-net、Fast R-CNN、Faster R-CNN、R-FCN;
  • 端到端(End-to-End),无需区域提名的,如YOLO、SSD。

基于区域定位的方法:

  1. 滑动窗口(穷举法),穷举不同长宽比的框,冗余度太高。
  2. 规则块(固定窗口大小),如小猿搜题因文字大小方正且固定,适合特殊场景。
  3. 选择性搜索,自底向上合并相邻的重叠区域,从而减少冗余。

选择性搜索算法:

输入: 一张图片
 
输出:候选的目标位置集合L
 
算法:
 
1: 利用过切分方法得到候选的区域集合R = {r1,r2,…,rn}
 
2: 初始化相似集合S = ϕ
 
3: foreach 邻居区域对(ri,rj) do
 
4:     计算相似度s(ri,rj)
 
5:     S = S  ∪ s(ri,rj)
 
6: while S not=ϕ do
 
7:     得到最大的相似度s(ri,rj)=max(S)
 
8:     合并对应的区域rt = ri ∪ rj
 
9:     移除ri对应的所有相似度:S = S\s(ri,r*)
 
10:    移除rj对应的所有相似度:S = S\s(r*,rj)
 
11:    计算rt对应的相似度集合St
 
12:    S = S ∪ St
 
13:    R = R ∪ rt
 
14: L = R中所有区域对应的边框

R-CNN 论文

RCNN

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值