7.Rcnn 论文总结

最新推荐文章于 2024-07-20 10:44:05 发布

红薯塔就是爱太阳啊

最新推荐文章于 2024-07-20 10:44:05 发布

阅读量190

点赞数

分类专栏：论文总结文章标签： RCNN 神经网络目标检测

本文链接：https://blog.csdn.net/weixin_42270275/article/details/85804273

版权

论文总结专栏收录该内容

14 篇文章 0 订阅

订阅专栏

神经网络的研究分为两种：
1.研究修改网络结构（层的数量，层与层之间的关系等）。最终目标：准确率高，结构稀疏
（Alexnet , vggnet , goolenet , resnet …）
2.研究网络的应用：分类、检测、分割
分类：结果是或不是
检测：框出物体
分割：分出物体准确轮廓

之前博客中介绍了神经网络的结构研究，接下来将介绍网络的应用（检测）。

RCNN : 基于CNN物体检测的开山之作。（在CNN基础上添加 region proposals）
key insights：
（1）为了定位和分割目标，使用high-capacity卷积神经网络，自底向上region proposals（区域建议）
（2）缺少标记的训练数据时，监督预训练作为辅助工作，再加上特定领域的微调。
在这里插入图片描述

1.Introduction

过去，视觉识别任务使用 SIFT and HOG（blockwise orientation histograms）解决问题。但是识别发生在多个阶段计算特征，应该是种层级结构。
“neocognitron”，受层次结构和平移不变性模型的启发。但是缺少监督训练算法。后来引入损失算法，通过随机梯度下降，反向传播可以训练 cnn
cnn 在1990s 广泛使用，然后就过时了，2012年因为在图像分类中取得显著成果重新复燃（使用非线性修正）
ImageNet 结果的重要性引起了激烈讨论：CNN分类结果在多大程度上推广到了目标检测上？
我们这篇论文首次说明了 cnn 可以在目标检测上有显著成效。解决两个问题：用cnn定位目标，使用少量标注的检测数据训练一个高容量模型。
检测要求定位图片的目标。起初将定位视为一个回归问题，但是效果不好。另一种方法：建立一个滑动窗口检测器，cnn就用的这种方法。为了保持高空间分辨率，cnn通常只有2个卷积和池化。我们也考虑了这个方法，但是我们的网络有5个卷积层和非常大的感受野和步长。这就使滑动窗口在精确定位上成为一个技术挑战。
我们用 “recognition using regions ” 解决cnn 定位问题。生成独立类的区域建议，从每个建议中使用cnn提取特征，使用特定类线性SVM分类每个区域。
检测问题面临的另一个挑战就是缺少标记的数据。常规解决是使用无监督预训练，再加上监督训练的微调。
我们 在一个大的辅助训练集上使用监督预训练，再加上在小数据集上特定领域的微调
HOG-like features 的一个优势是可以很方便的理解他们所展示的信息。我们也能深入了解CNN学习到的表象吗? 在探究CNN过程中，我们发现94%的参数可以移除而检测正确率只是稍微下降。卷积层学习到不同的大量特征。
一个简单的包围框可以显著减少错误定位。
由于Rcnn在区域上操作，那么很自然就能扩展到语义分割上。产生很好的结果。

2. Object detection with R-CNN

我们的目标检测体系包含三个模块：
（1）生成独立类区域建议。（候选区域）
（2）用 cnn 从每个候选区提取固定大小的特征
（3）一组特定类的线性支持向量机

2.1. Module design

Region proposals. 我们用选择性搜索来获取区域建议
Feature extraction。
输入图像（候选区）减去平均值，227*227RGB图像通过前向传播经过5个卷积2个全连接。
对每一类目标，使用一个线性SVM二类分类器进行判别
由于负样本很多，使用hard negative mining方法。

2.2. Test-time detection
Rcnn 可以缩放成千的目标类而不用求助于近似的方法（例如哈希）

实验结论：

Much of the CNN’s representational power comes from its convolutional layers
pool5 features learned from ImageNet are general and that most of the improvement is gained from learning domain-specific non-linear classifiers on top of them.

补充

基于错误分析，我们实现了一个简单的方法减少定位错误：
训练了一个线性回归模型预测pool5特征的一个新的检测窗口。
目标检测问题的衡量标准是重叠面积：许多看似准确的检测结果，往往因为候选框不够准确，重叠面积很小。故需要一个位置精修步骤。回归器对每一类目标，使用一个线性脊回归器进行精修。正则项。
微调候选区域的位置，使得候选框进一步接近物体的bounding box；

本文解决了目标检测中的两个关键问题。

问题一：速度
经典的目标检测算法使用滑动窗法依次判断所有可能的区域。本文则预先提取一系列较可能是物体的候选区域，之后仅在这些候选区域上提取特征，进行判断。

问题二：训练集
经典的目标检测算法在区域中提取人工设定的特征（Haar，HOG）。本文则需要训练深度网络进行特征提取。
本文使用识别库进行预训练，而后用检测库调优参数。最后在检测库上评测。

红薯塔就是爱太阳啊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
7.Rcnn 论文总结

神经网络的研究分为两种：1.研究修改网络结构（层的数量，层与层之间的关系等）。最终目标：准确率高，结构稀疏（Alexnet , vggnet , goolenet , resnet …）2.研究网络的应用：分类、检测、分割分类：结果是或不是检测：框出物体分割：分出物体准确轮廓之前博客中介绍了神经网络的结构研究，接下来将介绍网络的应用（检测）。RCNN : 基于CNN物体检测的开山之...
复制链接

扫一扫

专栏目录