【论文笔记】Deep Neural Networks for Object Detection

最新推荐文章于 2020-11-13 19:28:44 发布

转载最新推荐文章于 2020-11-13 19:28:44 发布 · 652 阅读

【深度学习及论文笔记】专栏收录该内容

222 篇文章

订阅专栏

本文介绍了一种基于深度神经网络(DNN)的目标检测方法，该方法不仅能够进行目标识别，还能通过回归的方式确定目标的位置。作者提出了一种新的框架，通过训练DNN输出二值化的掩码来定位目标，并解决了目标接近时难以区分的问题。

论文:<<Deep Neural Networks for Object Detection>>
作者:Christian Szegedy Alexander Toshev Dumitru Erhan

来源: Google
是否开放代码：否
主要思想：利用DNN来做目标检测，因为现在的CNN等深度学习在识别上面做的还挺好，但是在目标检测上面，好像没有特别突出的结果。目标检测 = 目标识别 +目标定位；
本文中作者把目标检测看做一个回归问题，回归目标窗口（BoundingBox）的位置，
寻找一张图片当中目标类别和目标出现的位置。
当前的目标检测方法效果比较好的是DPM（可变形部分模型）模型，建立在目标表示和目标可分解为由多个Part组成的模型，它是一种图模型，利用判别性学习这种图模型在目标检测中取得了不错的结果。

目标检测最重要的问题：1.大小（分辨率） 2.如何不滑动窗口来做（滑动窗口实在是太慢了）。
文章说明了：1. 基于DNN的回归不但可以学习有利于分类的特征，同时它也能够捕获到目标的几何信息；

主要内容：
通过设计基于DNN的回归，它的输出为二值化mask（掩码？反正就是来表示目标的位置信息），并且实现了从掩码中提取检测到的目标窗口，利用DNN的掩码回归问题中，即考虑到了完整图像的多尺度问题，同时也考虑到了一些小数量的图像裁剪块，然后以此精化；

在实现中，作者基于NIPS2012ImageNet那篇，直接把最后一层替换为回归层。

其它的基于DNN的检测方法或多或少是基于局部或者半局部分类器来做的，这这篇文章中采用的是利用整幅图像作为输入，然后通过位置回归来做的，这样的方法显然比滑动窗口的方法来说更加的高效；

对于存在的三个问题：1 .单个掩码可能区分开那些相互靠近的目标，2.由于输出大小的限制，产生的掩码会比原始图像小很多，所以这样就不能够精确的定位，3.因为输入是整张图像，一些小的图片能够影响到的输入神经元很少，所以将导致不易识别；

1.为了解决第一个问题：目标相互靠近的情况：
作者生成多个掩码，每个掩码表示着对应的完整的目标或者部分目标，他们使用一个网络来预测目标窗口掩码，使用4个附加的网络来检测4个半部分窗口，上下左右。这5个预测的结果是过完全的，但是可以减少不确定性和一些掩码错误。这样当有两个相同对象靠近出现在图像中时，产生的5个掩码至少有两个是不会合并在一起的，这样就可以区分开不同的目标；

==========================================

未完~~