Deep Neural Networks for Object Detection论文翻译

这是2013年使用深度学习做目标检测的一篇论文,相对于经典的rcnn是要出现的更早一些,这篇博客将对这篇论文进行一些翻译和解读,若理解有偏差和错误还望指出,大家互相交流和学习。
论文题目:Deep Neural Networks for Object Detection
作者:Christian Szegedy Alexander Toshev Dumitru Erhan Google, Inc.

摘要:深度神经网络最近已经在图像分类任务上有着十分杰出的表现。在这篇文章中,我们通过使用深度神经网络进一步解决了目标检测的问题,即不仅仅是分类,还要准确的定位出不同类别物体的位置。我们展现了一个简单但是有效的想法,那就是把目标检测问题归结为对目标包围矩形的掩模的一个回归问题。我们定义了一个多尺度的推理过程(inference procedure),它能够通过应用一些网络以一个较低的代价产生高分辨率(high-resolution)的目标检测。在PASCAL VOC数据集上取得了顶尖的表现。
一、前言
当我们想要对图像有更加复杂的理解,拥有更加准确和详细的目标识别能力变得至关重要。在这种情况下,我们不仅仅关心图像分类,还关心精确的估计图像中包含物体(目标)的类别和位置。
在目标检测中重要的进步来自于对目标的表达和机器学习模型的进步。其中一个表现十分突出的例子是之前的一个顶尖的目标检测模型——DPM模型。它建立在仔细设计的物体表达以及受运动启发(kinematically inspired)的物体的部分分解思想,这种部分分解思想被表达为一个图模型。使用对图模型进行判别式学习使得我们可以对不同种类的物体构建一个高精度的基于部件的模型。
手工设计的物体表达以及浅层的生成式训练模型同样地一直以来在目标分类等相关问题上有着最好的表现。然而在近几年,深度神经网络已经成为了一个强有力的机器学习模型。(作者的意思大概是在深度学习出现之前,手工特征加浅层学习模型在图像分类等问题上有着最好的表现,但是现在已经是深度学习的天下了)
深度神经网络在分类问题上展现出和传统方法较多的不同。首先,深度神经网络是深度结构,它有比浅层结构学习更为复杂模型的能力。这个富有表达性和鲁棒的训练算法使得我们可以学习到有效的物体表达,而不用去手工设计特征。在工程上通过1000类的图像分类比赛(IMAGENET)已经证明了这种算法的可行性。
在这篇文章中,我们探索了使用深度神经网络解决目标检测的能力,在目标检测中,我们不仅仅要区分物体,还要精确的定位物体。我们所说的目标检测是一个具有挑战性的问题,因为我们想要在有限的计算资源下,在一张图片中检测出可能存在的许多的各种尺寸大小的目标。
我们提出了一种想法,在给定一张图片的情况下它能够预测多个物体的包围矩形。更为准确地说,我们构想了一种基于深度神经网络的回归方法,它能够输出目标包围矩形以及部分目标包围矩形的二元掩模,正如图1所示的那样。
这里写图片描述
另外,使用了一个简单的包围矩形推理来从许多掩模中提取检测结果。为了提高定位精度,我们在全图以及少数的大面积剪裁的图像上用多尺度的方式使用了深度神经网络掩模生成方法,后面还伴随着一个精修的步骤。如图2所示。
这里写图片描述

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值