faster R-CNN 论文阅读_faster rcnn论文阅读-CSDN博客

本文链接：https://blog.csdn.net/u014232627/article/details/77532789

Faster R-CNN 论文阅读

1. Introduction

目标检测在region proposal 方法的推动下获得了很大成功，SPP-Net和fast R-CNN使用共享卷积层加速了计算速度，目前在test阶段的瓶颈在于region proposal。
目前的region proposal都太耗时了，这篇论文提出了RPN（Region Proposal Networks），使得面对检测任务，基本是cost-free的。

没什么要说的

3. Faster R-CNN

Faster R-CNN包含了两个部分，一个是RPN，一个是fast R-CNN. 整个系统是单一、统一的网络。用最近比较时髦的术语“attention”来说，RPN就是告诉fast R-CNN往哪看的。
Faster R-CNN网络框架

3.1 Region Proposal Networks

这里使用了两种卷积网络，一种是ZF的，一种是VGG-16。论文配图以ZF为例。RPN网络在最后一个卷积层之后开始，以ZF为例，最后一个卷积层的输出为13×13×256。首先RPN接了一个n×n×256的卷积层，这里的n = 3. 这是相当于采用滑动窗口的形式来提出proposal，每一个滑动的窗口对应回原图的region都是所提出的region.随后接了两个1×1的全卷积层，分别为分类层(cls)和回归层(reg)。

RPN

3.1.1 Anchors

对于feature map 当中的每一个点，都可以对应回原图，使用不同的尺寸和长宽比，可以得到多个原图的boxes, 叫做anchors. 论文用了3个尺度，3个长宽比，得到k = 9.
所以对于一个W×H的feature map,可以得到 WHk个anchors.

平移不变
anchor具有平移特性。当在图片当中平移一个object后，proposal 也能平移，function也会预测到正确位置。

3.1.2 Loss Function

对于anchors, 正样本：

与ground truth有着最高的IOU的anchors
与任意一个ground truth有着大于0.7的IOU的anchors

所以一个ground truth box可以对应多个正的anchors，而且至少对应一个。通常第二个条件就足以生成充足的正样本了，但是在某些稀少的情况下第二个情况或许没有正样本，只能使用第一个条件来产生一些正样本。

负样本的定义是对于所有的ground truth 的IoU都小于0.3.

Loss 函数的定义:
这里写图片描述

这里写图片描述

3.1.3 Training RPNs

每次的mini-batch都从一张图上产生256个anchors，正负比例基本1：1。
前60K学习率为0.001 ,接下来20k学习率为0.0001.
momentum为0.9, weight decay为0.0005

3.2 RPN与fast R-CNN之间共享卷积层特征

4步轮流训练
1. 从pre-trained ImageNet网络初始化RPN网络，训练RPN网络。
2. 从pre-trained ImageNet网络初始化fast R-CNN网络，并用1当中的RPN网络得到region proposals, 训练自己的网络，此时两个网络的卷积层是不一样的，不共享的。
3. 使用fast R-CNN的卷积层初始化RPN网络的卷积层， fine-tune RPN网络的后面的特有的层。
4. 然后用3中的RPN网络生成region proposals，fine-tune fast R-CNN网络后面特有的层。

3.3 实现细节

训练时为了便于收敛去掉越过边界的那些anchors，但是测试时还是保留了，不过会裁剪到边界。这样对于1000×600的图片，原本有60×40×9个anchors,去掉之后大约还有6000个anchors.
RPN的proposals有很大的重叠度，采用NMS来去掉重叠，采用的IOU阈值为0.7

4 实验

4.1 在Pascal VOC上的实验

本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：

Markdown和扩展Markdown简洁的语法
代码块高亮
图片链接和图片上传
LaTex数学公式
UML序列图和流程图
离线写博客
导入导出Markdown文件
丰富的快捷键

快捷键

加粗 Ctrl + B
斜体 Ctrl + I
引用 Ctrl + Q
插入链接 Ctrl + L
插入代码 Ctrl + K
插入图片 Ctrl + G
提升标题 Ctrl + H
有序列表 Ctrl + O
无序列表 Ctrl + U
横线 Ctrl + R
撤销 Ctrl + Z
重做 Ctrl + Y

Markdown及扩展

Markdown 是一种轻量级标记语言，它允许人们使用易读易写的纯文本格式编写文档，然后转换成格式丰富的HTML页面。 —— [ 维基百科 ]

使用简单的符号标识不同的标题，将某些文字标记为粗体或者斜体，创建一个链接等，详细语法参考帮助？。

本编辑器支持 Markdown Extra , 　扩展了很多好用的功能。具体请参考Github.

表格

Markdown　Extra　表格语法：

项目	价格
Computer	$1600
Phone	$12
Pipe	$1

可以使用冒号来定义对齐方式：

项目	价格	数量
Computer	1600 元	5
Phone	12 元	12
Pipe	1 元	234

定义列表

Markdown　Extra　定义列表语法：项目１项目２

定义 A

定义 B

项目３

定义 C

定义 D

定义D内容

代码块

代码块语法遵循标准markdown代码，例如：

@requires_authorization
def somefunc(param1='', param2=0):
    '''A docstring'''
    if param1 > param2: # interesting
        print 'Greater'
    return (param2 - param1 + 1) or None
class SomeClass:
    pass
>>> message = '''interpreter
... prompt'''