[论文阅读] Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation

最新推荐文章于 2024-07-06 12:54:47 发布

xiongxyowo

最新推荐文章于 2024-07-06 12:54:47 发布

阅读量483

点赞数

分类专栏：杂文文章标签：划水

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40714949/article/details/125995449

版权

杂文专栏收录该内容

74 篇文章 15 订阅

订阅专栏

[论文地址] [代码] [CVPR 14]

Abstract

在过去的几年里，在典型的PASCAL VOC数据集上测量的目标检测性能已经趋于平稳。表现最好的方法是复杂的组合系统，通常将多个低层次的图像特征与高层次的背景相结合。在本文中，我们提出了一种简单的、可扩展的检测算法，相对于VOC 2012的最佳结果，该算法的平均精度(mAP)提高了30%以上–达到了53.3%的mAP。我们的方法结合了两个关键的见解：(1)我们可以将大容量的卷积神经网络(CNN)应用于自下而上的区域建议(Region Proposal)，以便对物体进行定位和分割；(2)当标记的训练数据不足时，对一个辅助任务进行监督性的预训练，然后再进行特定领域的微调，可以产生显著的性能提升。由于我们将区域建议与CNN结合起来，我们将我们的方法称为R-CNN。我们还提出了一些实验，这些实验提供了对网络学习内容的洞察力，揭示了丰富的图像特征层次结构。

Method

本文为大名鼎鼎的R-CNN，其中的R表示Region Proposal，。按照现在的分类方法，本文算是一种两阶段的Anchor Based方法，流程如下所示：
在这里插入图片描述

Step1: Region Proposal，即候选区域，可以认为就是一个框，框内包含我们感兴趣类别的物品。文中使用了Selective Search算法，每个图像能得到2k～3k个候选框。
Step2: 由于框内可能包含我们感兴趣的对象，那么现在实际上就成了一个分类问题，判断这个框的类别即可。因此，将框内图像resize成CNN能够接受的输入尺寸(如224x224)，并送入CNN进行特征提取。
Step3: 将提取得到的特征送入SVM进行分类，判断其类别。注意，由于SVM只是个二分类器，所以有多少种可能的类就要把单个特征送入多少个不同的SVM。

Pros

本文亮点如下：

利用深度学习模型来提取特征，性能相比传统的手工特征实现了飞跃。
引入了finetune思想，通过在图像分类任务上的ILSVRC数据集上预训练得到丰富表征，再在相对较小的目标检测数据集VOC上finetune。

Cons

本文不足如下：

慢。时间主要花在Selective Search生成候选框，以及SVM分类上，并且特征是要存在磁盘上的(占地方)。因此后续才陆续有了Fast R-CNN与Faster R-CNN。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。