1. 思想
Feature Matters(特征至关重要)
- SIFT or HOG ~complex cells in V1
- Fukushima’s “neocognitron” ~a biologically-
inspired hierarchical and shift-invariant model for pattern recognition - LeCun SGD ~was effective for training convolutional neural net- works (CNNs)
- 2012 Krizhevsky ~ImageNet Large ScaleVisual Recognition Chal- lenge (ILSVRC)
CNN在特征提取方面表现出强大的能力,而且可以将特征提取和特征分类一起训练
怎样将CNN用于目标检测?
用深度网络来定位物体
直接regression结果不好(可以参考Szegedy的论文)
滑动窗:计算量太大(传统方法,对特征提取和分类器有很大的限制)
Region Proposal基于区域的分类:先提取包含目标的大致区域,再利用CNN对区域进行分类用少量带标注的数据训练一个大容量模型
有监督预训练(ImageNet)
针对性的微调(Pascal)
2. 具体结构
- 输入图像
- 提取候选区域(原文使用了Selective Search)
- CNN的输入大小是固定的,将提取的候选区域进行warped
- 利用CNN提取特征(4096维向量)
- 根据特征利用SVM进行二分类
3. 训练特征提取网络
- 有监督预训练(ImageNet)
其实就是使用了Alexnet来提取特征。相比于无监督预训练,结果更好 - 针对性的微调(Pascal)
因为Imagnet上有1k个类,而PASCAL上有20类(加背景21类),所以把最后一层改为21。
训练样本
Selective Search得到的候选区域
与ground truth的IOU大于0.5为正样本,其余的为负样本
损失函数
Softmax
对PASCAL数据集的训练样本,加入调整得到AlexNet,可以调整过的特征提取网络
4. 训练特征分类网络
这里作者没有使用上面训练好的网络,而是又重新训练了多个二分类SVM(不太明白为什么)
训练样本(容易区分的样本):
IOU小于0.3(作者实验了0,0.1,…,0.5,发现0.3最好,而且这个值对最后结果有很大的影响)的区域的特征作为负样本
正样本是gound truth
损失函数:
参考二分类SVM
因为训练数据太大了,所以采用了
hard negative mining method方法(没有具体了解)
5. 测试结果
可以看出使用RCNN的结果,打破了目标检测的瓶颈(基于DPM的方法)
6. 实验分析(一些结构和参数的设置)
1. 特征提取网络
可以想象的是,特征提取的网络越少,得到的特征泛化性越强(微调提升的效果也不会很大);网络越多,特征针对性越强。
至于哪种特征更好?
如果没有微调,网络层数越少特征越泛化,层数越多特征越具体,要根据问题折中
如果有足够的数据, 就可以选取更多的层数,再用数据进行微调
2. 边框回归
Inspired by the bound-ing box regression employed in DPM, we train a linear regression model to predict a new detection window given the pool5 features for a selective search region proposal.
作者在Fast-RCNN里面有具体的边框回归的方法.这里应该是比较简单的方法,对结果也没有特别大的提升。
7. 结论
**作者文章的亮点:
- 在Bottom-Up的区域上利用高性能的卷积神经网络进行特征提取(原来是 滑动窗+低级的特征提取和分类器)
- 标注数据稀缺时如何训练网络**