Rich feature hierarchies for accurate object detection and semantic segmentation

最新推荐文章于 2024-03-04 11:28:39 发布

贱小杜

最新推荐文章于 2024-03-04 11:28:39 发布

阅读量512

点赞数

分类专栏：计算机视觉论文

本文链接：https://blog.csdn.net/qq_41088475/article/details/104640753

版权

计算机视觉论文专栏收录该内容

19 篇文章 17 订阅

订阅专栏

之后的计划：
1、看一看 fast rcn ,mask rcn ,svm 的博客和经典论文，再进入视频检测领域。
2、下一个vpn插件，练一下服务器

1. Abstract

在这里插入图片描述
我们的方法结合了两个关键的见解:
(1)可以应用大容量的卷积神经网络在自底向上的region proposals中去实现定位和分隔；
(2)当标记的训练数据不足时，可以用有监督的预训练模型去训练新的特定任务，然后进行特定任务的微调，产生显著的性能提升。由于我们将region proposals区域建议与CNNs相结合，我们将我们的方法称为R-CNN:具有CNN特征的区域。

问题：region proposals 是更早提出的一种区别于滑动窗口的一种方法吗？

2. introduction

mean average precision (mAP) 平均平均精度
在这里插入图片描述
以前的两种方法：
1、一种是把目标检测当做回归问题来处理；
2、一种是用CNNs(用于提取特征)+滑动窗口的方式；
我们采用的是CNNs+区域识别的方式，也尝试过用滑动窗口来完成localization problem，但我们的CNNs厚达5层且有很大的receptive fileds 和 strides，使得使用滑动窗口的话，计算量太大。用recognition using regions 的方式很好的完成了objection detection 和 semantic segmentation问题。

在这里插入图片描述
在测试时，

我们的方法为

== 1、输入图像生成大约2000个类别无关的region proposals；
2、使用CNN从每个建议中提取一个固定长度的特征向量，
3、然后使用类别特定的线性SVM(支持向量机)对每个区域进行分类==。

问题：需要再看一看SVM方面的东西,是如何进行分类的。

我们使用一个简单的技术(仿射图像扭曲,即：直接缩放成固定大小)从每个区域的建议中计算一个固定大小的CNN输入，而不考虑区域的形状。因为CNNs的input需要固定的大小。

图1呈现了我们的方法的整个过程和一部分结果

方法的关键技术图：

在这里插入图片描述

问题：什么是bottom-up region proposals?

在这里插入图片描述
我们的目标检测系统由三个模块组成：
1、第一个模块用于生成category-independent region proposals,这些建议定义了我们的探测器可用的候选检测集。
2、第二个模块是一个大型的卷积神经网络，它从每个区域提取一个固定长度的特征向量。
3、第三个模块是一组特定于类的线性支持向量机。

我们为每个模块提供设计决策，描述它们的测试时使用情况，详细说明如何学习它们的参数，并显示检测结果

2.1. Module design

在这里插入图片描述

问题：什么是 mean-subtracted 227×227 RGB image?

在这里插入图片描述

问题：划线处不知道有什么用。

为了计算区域建议的特征，我们必须首先将该区域的图像数据转换成与CNN兼容的形式(其架构需要固定的227 - 227像素大小的输入)。
在任意形状区域的许多可能的转换中，我们选择最简单的。不管候选区域的大小或长宽比如何，我们都会将它周围的所有像素弯曲成所需的大小。

2.2. Test-time detection

在这里插入图片描述
在测试时，我们对测试图像进行选择性搜索，以提取出大约2000个区域建议(我们在所有实验中都使用了选择性搜索的“快速模式”)。为了计算特征，我们对每个提议进行变形，并通过CNN进行传播去抽取特征。然后，对于每个类，我们使用针对该类训练的SVM对每个提取的特征向量进行评分。给定图像中所有有得分的区域，我们应用一个贪婪的非最大抑制(对每个类独立地)来拒绝一个区域，如果它有一个交叉-过度并集(IoU)与所选区域内得分高于所学区域的重叠。

贱小杜

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Rich feature hierarchies for accurate object detection and semantic segmentation

之后的计划：1、看一看 fast rcn ,mask rcn ,svm 的博客和经典论文，再进入视频检测领域。2、下一个vpn插件，练一下服务器1. Abstract我们的方法结合了两个关键的见解:(1)可以应用大容量的卷积神经网络在自底向上的region proposals中去实现定位和分隔；(2)当标记的训练数据不足时，可以用有监督的预训练模型去训练新的特定任务，然后进行特定任务...
复制链接

扫一扫

专栏目录