目标检测之RCNN系列算法学习

最新推荐文章于 2022-01-16 15:46:03 发布

Kuekua-seu

最新推荐文章于 2022-01-16 15:46:03 发布

阅读量369

点赞数

分类专栏：机器学习深度学习

本文链接：https://blog.csdn.net/u012554092/article/details/82947040

版权

深度学习同时被 2 个专栏收录

36 篇文章 0 订阅

订阅专栏

机器学习

14 篇文章 0 订阅

订阅专栏

目标检测之RCNN系列算法学习

1. RCNN
2. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

1. RCNN

标题	Rich feature hierarchies for accurate object detection and semantic segmentation Tech report
作者团队，发表时间	UC Berkeley， CVPR-2014
文章解决的问题	提高目标检测速度和准确率
解决的方案	提出两步检测框架，先用selective search进行检测框的proposal，然后使用CNN提取检测框的特征，接着利用SVM判断类别，并对检测框进行回归矫正
实验与结果	1.数据库: ImageNet，PASCAL VOC 2010 2. 训练参数: 3. 训练策略： 4.Result： achieves a mean average precision (mAP) of 53.7% on PASCAL VOC 2010
总结	改进点： 1.用SoftMAx取代SVM进行加速 2. 使用更好的网络架构 3.标定框proposal算法selective search不具备尺度鲁棒性 4. image size warp算法会造成图像畸变，有改进空间

在这里插入图片描述

1.1 解决的问题

1.1.1 image size warp

问题：
由于RCNN采用的是AlexNet架构，输出为固定的4096维数据，所以需要将网络输入固定（227x227）
解决方案：
直接将检测框resize成227x227大小，但在resize之前将检测框下端做16个像素的padding，以增大视野

1.1.2 训练数据不足

问题：
目前只有PASCAL VOC含有检测框标准，而ILSVRC2012只有类别信息
解决方案：
使用ILSVRC2012进行pretrain，使用PASCAL VOC进行fine-tune
a. fine-tuning: SGD ,learning rate of 0.001 (1/10th of the initial pre-training rate),
batch 构成：32 positive windows (over all classes) and 96 background windows
，这样做的目的是均衡正负样本数量。
b. 训练CNN与SVM分类器样本不一样，SVM分类器的数据更加严格，为准确无误的打标框，原因在于CNN要的训练数据远远大于SVM，因此CNN与SVM可以分开训练。

1.2 论文结论

1.2.1 数据相关性

经过作者进行image URL比较和图像内容比较，得出PASCAL VOC与ILSVRC2012数据只有小于1%的重复率。

2. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

标题	Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
作者团队，发表时间	Facebook， TPAMI-2015
文章解决的问题	提高目标检测速度和准确率
解决的方案	提出Spatial Pyramid Pooling，将proposal和detection连接在一起，可以一起训练，避免resize对数据精度的影响
实验与结果	1.数据库: ImageNet，PASCAL VOC 2010 2. 训练参数: 3. 训练策略： 4.Result：
总结	改进点： 1.

Kuekua-seu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
目标检测之RCNN系列算法学习

目标检测之RCNN系列算法学习1. RCNN1.1 解决的问题1.1.1 image size warp1.1.2 训练数据不足1.2 论文结论1.2.1 数据相关性1. RCNN标题Rich feature hierarchies for accurate object detection and semantic segmentation Tech report作者团队...
复制链接

扫一扫