OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks

介绍了OverFeat论文,这是一种使用卷积网络进行分类、定位和检测的集成框架。文章详细阐述了如何在ConvNet中实现多尺度和滑动窗口方法,以及通过累积边界框增加检测置信度的独特策略。该框架在ILSVRC2013竞赛中取得优异成绩,实现了检测和分类任务的高水平表现。
摘要由CSDN通过智能技术生成

OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks

论文介绍

1) 论文来源
Sermanet P, Eigen D, Zhang X, et al. Overfeat: Integrated recognition, localization and detection using convolutional networks[J]. arXiv preprint arXiv:1312.6229, 2013.
引用这篇paper的都是大名鼎鼎论文,很有必要学习一下!

2) 论文摘要
我们提出了一个使用卷积网络进行分类,定位和检测的集成框架。我们展示了如何在ConvNet中有效地实现多尺度滑动窗口方法。我们还通过学习预测目标边界定位介绍一种新颖的深度学习方法。通过累积accumulate而不是抑制suppress边界框以增加检测置信度。我们展示了使用单个共享网络可以同时学习不同的任务。该集成框架是2013年ImageNet大规模视觉识别挑战(ILSVRC2013)任务的赢家,并为检测和分类任务获得了极具竞争力的结果。在赛后工作中,我们为检测任务建立了新的技术水平。

3) 论文下载
https://arxiv.org/abs/1312.6229

主要内容

本文的思路:
1)滑动窗口,对每个位置进行分类任务。但是问题在于窗口大小固定。一只狗通过分类器可以检测到他的头,但是检测不到他的身子,因为他的身子也与其他动物类似。好比与盲人摸象。对整体中的部分分类没有意义,不能检测到物体的中心。
2)因此,训练系统不仅为每个窗口产生类别分布,而且还产生包含相对于窗口的对象的边界框的位置和大小的预测。
3)每次的窗口滑动都会有输出,累计位置,大小,类别的证据得到最终的结果。

在这里插入图片描述
grouth true 翻译为检测标签,即包含类别,位置,大小
图1:定位任务(顶部)和检测任务(底部)。左图包含我们的预测(通过降低置信度排序),而右图显示检测标签。检测图像(底部)说明检测数据集的较高难度,其可包含许多小对象,而分类和定位图像通常包含单个大对象。

网络结构

损失函数

训练过程

现存问题

解决方案

参考:

https://www.jianshu.com/p/6d441e208547

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值