OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks
论文介绍
1) 论文来源
Sermanet P, Eigen D, Zhang X, et al. Overfeat: Integrated recognition, localization and detection using convolutional networks[J]. arXiv preprint arXiv:1312.6229, 2013.
引用这篇paper的都是大名鼎鼎论文,很有必要学习一下!
|
|
2) 论文摘要
我们提出了一个使用卷积网络进行分类,定位和检测的集成框架。我们展示了如何在ConvNet中有效地实现多尺度和滑动窗口方法。我们还通过学习预测目标边界定位介绍一种新颖的深度学习方法。通过累积accumulate而不是抑制suppress边界框以增加检测置信度。我们展示了使用单个共享网络可以同时学习不同的任务。该集成框架是2013年ImageNet大规模视觉识别挑战(ILSVRC2013)任务的赢家,并为检测和分类任务获得了极具竞争力的结果。在赛后工作中,我们为检测任务建立了新的技术水平。
3) 论文下载
https://arxiv.org/abs/1312.6229
主要内容
本文的思路:
1)滑动窗口,对每个位置进行分类任务。但是问题在于窗口大小固定。一只狗通过分类器可以检测到他的头,但是检测不到他的身子,因为他的身子也与其他动物类似。好比与盲人摸象。对整体中的部分分类没有意义,不能检测到物体的中心。
2)因此,训练系统不仅为每个窗口产生类别分布,而且还产生包含相对于窗口的对象的边界框的位置和大小的预测。
3)每次的窗口滑动都会有输出,累计位置,大小,类别的证据得到最终的结果。
grouth true 翻译为检测标签,即包含类别,位置,大小
图1:定位任务(顶部)和检测任务(底部)。左图包含我们的预测(通过降低置信度排序),而右图显示检测标签。检测图像(底部)说明检测数据集的较高难度,其可包含许多小对象,而分类和定位图像通常包含单个大对象。