OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks

最新推荐文章于 2024-03-01 20:54:42 发布

Arron_hou

最新推荐文章于 2024-03-01 20:54:42 发布

阅读量335

点赞数

分类专栏：深度学习目标检测文章标签：目标检测 ICIR imageNet2013冠军

本文链接：https://blog.csdn.net/arron_hou/article/details/89347479

版权

深度学习同时被 2 个专栏收录

26 篇文章 1 订阅

订阅专栏

目标检测

2 篇文章 0 订阅

订阅专栏

OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks

论文介绍

1) 论文来源
Sermanet P, Eigen D, Zhang X, et al. Overfeat: Integrated recognition, localization and detection using convolutional networks[J]. arXiv preprint arXiv:1312.6229, 2013.
引用这篇paper的都是大名鼎鼎论文，很有必要学习一下！

2) 论文摘要
我们提出了一个使用卷积网络进行分类，定位和检测的集成框架。我们展示了如何在ConvNet中有效地实现多尺度和滑动窗口方法。我们还通过学习预测目标边界定位介绍一种新颖的深度学习方法。通过累积accumulate而不是抑制suppress边界框以增加检测置信度。我们展示了使用单个共享网络可以同时学习不同的任务。该集成框架是2013年ImageNet大规模视觉识别挑战（ILSVRC2013）任务的赢家，并为检测和分类任务获得了极具竞争力的结果。在赛后工作中，我们为检测任务建立了新的技术水平。

3) 论文下载
https://arxiv.org/abs/1312.6229

主要内容

本文的思路：
1）滑动窗口，对每个位置进行分类任务。但是问题在于窗口大小固定。一只狗通过分类器可以检测到他的头，但是检测不到他的身子，因为他的身子也与其他动物类似。好比与盲人摸象。对整体中的部分分类没有意义，不能检测到物体的中心。
2）因此，训练系统不仅为每个窗口产生类别分布，而且还产生包含相对于窗口的对象的边界框的位置和大小的预测。
3）每次的窗口滑动都会有输出，累计位置，大小，类别的证据得到最终的结果。

在这里插入图片描述
grouth true 翻译为检测标签，即包含类别，位置，大小
图1：定位任务（顶部）和检测任务（底部）。左图包含我们的预测（通过降低置信度排序），而右图显示检测标签。检测图像（底部）说明检测数据集的较高难度，其可包含许多小对象，而分类和定位图像通常包含单个大对象。