【深度学习论文笔记】Rich feature hierarchies for accurate object detection and semantic segmentation

最新推荐文章于 2024-09-17 18:02:13 发布

RiweiChen

最新推荐文章于 2024-09-17 18:02:13 发布

阅读量2w

点赞数 3

分类专栏：【深度学习论文笔记】深度学习论文笔记

本文链接：https://blog.csdn.net/chenriwei2/article/details/38110387

版权

【深度学习论文笔记】同时被 2 个专栏收录

9 篇文章 3 订阅

订阅专栏

深度学习论文笔记

9 篇文章 191 订阅

订阅专栏

     文章：《Rich feature hierarchies for accurate object detection and semantic segmentation》
     作者：Ross Girshick Jeff Donahue Trevor Darrell Jitendra Malik
     单位：UC Berkeley，CVPR2014？
     是否开放代码：是，地址:http://www.cs.berkeley.edu/˜rbg/rcnn
     主要方法：
        1.采用CNN对图像中可能的目标进行提取特征，2，由于用于检测的训练数据不够，所以采用NIPS2012识别   那篇文章的训练好的参数作为初始参数（预训练），然后再利用训练数据进行微调（Fine-Turing）。因为是采用对region proposal 进行提取特征放入CNN，所以把这个方法叫做R-CNN。

主要内容：
基于DPM的方法在检测上面这几年的效果提升不是很明显，很多都转向了DL的方法来做，CNN由LeCun 20年前就提出来了，它采用随机梯度下降法来进行求解BP，但是随后被SVM方法给取代成为主流，但是在2012年之后重新火了起来，成为计算机视觉DL的主要方法，主要的改进是：1.训练数据增多，计算能力增强（120万张训练数据），2. ReLU非线性函数的使用，3. Dropout的采用。

目标检测的两个主要方法：1. 采用回归目标窗口的方法，2.滑动窗口地方法；

主要测试过程：1. 给定一张图片，利用selective search方法来产生2000个候选窗口（大致类似于目标显著性）2.然后利用CNN进行对每一个候选窗口提取特征，特征长度为4096维度。 3.最后用SVM分类器对这些特征进行分类（每一个目标类别一个SVM分类器）

具体实现：作者利用了Caffe开源库，利用NIPS2012那篇的识别上面的网络结构参数作为用于检测的网络的初始参数（Pre-training），然后利用检测的训练数据进行微调（Fine-tuning）。而因为Caffe的网络输入图像的大小必须是要求一致的，所以先要对候选窗口进行简单的归一化（这里可能是最大的问题吧，不同的分辨率和不同的长宽比都归一化到一个大小，效果肯定会降低不少）。