《Spatial Memory for Context Reasoning in Object Detection》笔记

Introduction

人是利用图像中的context来识别图像中的内容。在图像的目标检测任务中,一种很理所当然的改进方法就是利用图像中的context来推测图像中的对象。该论文提出了两种context类型,分别是image-level context和instance-level context。该论文显式地利用instance-level context,使用Spatial Memory Network (SMN)对图像中不同对象之间的关系进行建模,类似于RNN中的memory cell记录已经检测到对象的bounding box,以便更好地检测图像中其他对象。

Image-level context 图像的整体环境/内容可以提示图像应该有那些对象,而不该有那些对象。比如在海面上可能会有轮船,而不应该有汽车。在天空中可能有鸟在飞行,而不应该出现牛羊。这种全图内容推理过程应该已经隐式地融入到深度卷积网络中,在深网络层中,每个神经元的感受野非常大,可以包含image-level context,深度卷积网络根据这些内容预测对象的位置和类别。

Instance-level context 对象和对象之间的关系是目标检测推理过程的重要线索。看下图,一只羊的附近很可能还有另外一只羊,在蛋糕上的“马”不是真的马。利用Instance-level context来推理,把true positive的置信度拉高,把false positive的置信度减低。目标检测的instance-level推理必须处理不同类、位置、比例、宽高比等的边框之间的关系,这使得instance-level推理具有更大的挑战和难度。
Instance-level context

传统的RCNN几乎没有使用context的信息,作者认为特别是在NMS的时候,暴力去除一些候选框不是一个好主意。作者提出了SMN来获取instance-level context,当网络检测到某个对象时,记住它,然后在下次迭代的时候作为先验知识帮助下一次检测得到之前漏测的目标。SMN没有NMS的post处理过程,作者说SMN在训练过程会学到NMS去掉重复候选框的功能。

Spatial Memory Network

Mathematical formulation

作者首先用数学公式说明一下网络结构的合理性。给定一幅图像 I \mathcal{I} I,检测出所有的对象 O = [ O 1 , O 2 , ⋯   , O N ] O=[O_1, O_2, \cdots, O_N] O=[O1,O2,,ON],其中 N N N表示图像中有N个对象。网络模型的训练目标是最大化似然函数
(1) arg ⁡ max ⁡ M L = log ⁡ P ( O 1 : N ∣ M , I )

  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值