笔记链接:https://thoughts.teambition.com/share/600937eda49b45004647d956#title=06.RCNN
下面是笔记内容,推荐用链接观看!
06.RCNN
📄论文题目
Rich feature hierarchies for accurate object detection and semantic segmentation
👨💻作者
Ross Girshick:以开发R-CNN(基于区域的卷积神经网络)方法来检测对象而闻名。2017年,Ross还凭借《Mask R-CNN》与何恺明齐获在ICCV获得马尔奖。
❓四个问题
❔要解决什么问题?
当时检测技术处于一个平稳期,希望在各方面有个比较大的突破。
❔使用什么方法解决问题?
-
候选区域的生成:利用Selective Search算法通过图像分割的方法得到一些原始区域,然后使用一些合并策略将这些区域合并,得到一个层次化的区域结构,而这些结构可能包含需要的物体。
-
深度网络提取特征:将2000个候选区域缩放到227 * 227 后输入训练好的AlexNetCnn网络,获得4096维的特征得到 2000* 4096维的矩阵
-
输入SVM分类器,判定类别:
-
回归分类器修正:
❔实际效果如何?
较当时的检测有了极大的提升,mAP从35.1%提高到53.7%,同时速度也快得多
❔还存在什么问题?
-
检测速度慢:53S检测一张图片,用SS算法提取特征2s,一张图像内候选框之间存在大量重叠,提取特征操作冗余。
-
训练速度慢:过程及其繁杂。
-
训练所需空间大:VOC07S上的5000张图片训练要数百G。
✨论文概述
🔸1.Abstract
当时VOC上检测的性能发展处于平稳期,表现最佳的是复杂的集成检测系统(将多个低级图像特征与高级上下文结合)
R-CNN相较于之前的方法,mAP提高了30%!主要包含两个主要思路:
-
将大量的卷积网络应用于自下而上的Region Proposal(候选区域)
-
数据缺少时,对辅助任务进行有监督的预训练(同时进行微调,获得显著的性能)
🔹2.Introduction
图像的特征是很重要的,在RCNN之前视觉的任务大多基于SIFT和HOG。CNN能够显著提高检测性能,主要是解决两个问题:
-
利用深层的网络进行目标定位
-
少量的标注检测数据用于训练大容量的检测模型
-
输入一副图像
-
提取2000个自下而上的候选区域
-
使用CNN计算每个Proposal的特征
-
使用特定的SVM对每个区域进行分类
SIFT:
SITF算法详解---特详细版_LJP1924804579的博客-CSDN博客
写的太好了,转载至:https://blog.csdn.net/zddmail/article/details/7521424参考资料1、David G.Lowe Distinctive Image Features from Scale-Invariant Keypoints. January 5, 2004.2、David G.Lowe Object Recognition from Local Scale-Inva...
https://blog.csdn.net/LJP1924804579/article/details/108028242
HOG:
HOG原理与OpenCV实现_chaibubble-CSDN博客
方向梯度直方图(Histogram of Oriented Gradient, HOG)于2005年提出,是一种常用的特征提取方法,HOG+SVM在行人检测中有着优异的效果。HOG特征提取算法原理在一幅图像中,梯度或边缘的方向密度分布能够很好地描述局部目标区域的特征,HOG正是利用这种思想,对梯度信息做出统计,并生成最后的特征描述。在HOG中,对一幅图像进行了如下划分: 图像(i...
https://blog.csdn.net/chaipp0607/article/details/70888899
🔸3. Object detection with R-CNN
R-cnn检测系统主要由三部分组成:
-
生成候选区域
-
从候选区域提取特征的卷积网络
-
一系列的类别线性分类器SVM
3.1 Module Design
-
Region proprosal:有很多类似的方法,选择使用选择性搜索(selective search)与之前的检测工作进行比较。
-
Faeture extraction:从区域建设中提取4096维特征向量。
3.2 Test-time detection
使用选择搜索获得2000个建议区域,调整(wrap)每个建议区域以符合CNN网络输入。
-
run-Time analysis: 首先,CNN 所有参数在所有类别之间是共享的;其次,CNN计算的特征向量是低纬度的。
3.3 training
-
Supervised pre-traininig:在ILSVRC 2012完成CNN的预训练
-
Domain-specific fine-tuning:≥0.5IOU为正样本,其余为负样本.使用来自VOC的扭曲区域建议对CNN参数进行随机梯度下降(SGD)训练,在每一次SGD迭代中,我们均匀采样32个正窗口(所有类别)和96个背景窗口,以构建大小为128的小批量(采用偏向正样本窗口)
-
Object category classifiers:IOU的正负样本阈值对mAP的影响很大。
3.4 Results on PASCAL VOC 2010-12
在mAP上有了很大的改进,从35.1%提高到53.7%,同时速度也快得多。
🔹4.Visualization, ablation, and modes of error
4.1 Visualizing learned features
从网络中挑选出特定的单元(特征),将其作为本身的对象检测器来使用,计算单元对一系列(1000万个)区域提案从高到底进行激活,使用非最大抑制得到得分最高的区域。
4.2 Ablation studies
-
Performance layer-by-layer, without fine-tuning:允许在pool5功能之上使用滑动窗口检测器(包括DPM)进行实验
-
Performance layer-by-layer, with fine-tuning:从ImageNet学习的pool5特性是通用的,而且大部分改进是通过在它们之上学习特定于领域的非线性分类器来实现的
-
Comparison to recent feature learning methods:DPM和DPM(HSC)两种方法的检测效果的mAP分别我29.1%和34.3%。
4.3 Detection error analysis
CNN的特征比HOG更具区分性。
4.4 Bounding box regression
DPM中使用的包围盒回归的启发,训练了一个线性回归模型来预测一个新的检测窗口,该模型在给Pool5特征的情况下用于选择性搜索区域方案,修复了大量本地化错误的检测。
🔸5.Semantic segmentation
微调可以提高所有特征(包括遮挡、截断、视点和部分可见性)的稳健性。
-
FULL:忽略区域形状,直接在wrap窗口上计算CNN特征
-
FG:仅在区域前景遮罩上计算CNN特征,用均值输入替换背景,使得均值相减后的背景区域为0。
-
FULL+FG:简单了链接两种特征
有高的分割准确率,总体平均分割准确率为47.9%(但在任何合理的误差范围内都可能与O2P结果一致)。更好的性能很可能通过微调来实现。
6.conclusion
有监督的预训练/特定领域的微调”范例将对各种数据稀缺的视觉问题非常有效.
👀补充
附录
https://www.bilibili.com/video/BV1yi4y1g7ro
y
olo.pdf(5.1 MB)
- 0%
yol
ov1.pdf(1.0 MB)
- 0%