Structure Inference Net: Object Detection Using Scene-Level Context and Instance-Level Relationships

Structure Inference Net: Object Detection Using Scene-Level Context and Instance-Level Relationships论文笔记

  1. 做了什么?
    首先我们来看一张图片
    这里写图片描述

    由图中我们可以看到,左图(a)在海面上一些小的船只被识别成了汽车,在右图(b)鼠标却没能被识别出来。所以作者觉得上下文的语义对视觉识别极其重要,根据语义信息可以提高我们识别的准确率。比如在海面上是不会出现汽车,在电脑旁边通常鼠标也是存在的。

    在文章中,作者提出了一种对象检测算法,这个算法不仅考虑了对象的视觉外观,而且利用了场景上下文信息和单个图像中的对象关系。因此,在利用这些结构化信息时,对象检测既是一个认知问题,又是一个推理问题。具体地说,本文将对象检测定义为图结构推理问题,在图中给定一个图像,对象被视为图中的节点,对象之间的关系被建模为图中的边。为此,作者提出了一个所谓的结构推理网络(SIN),旨在推断对象状态。

    • 论文框架
      这里写图片描述
      输入整张图片,送入RPN网络提取特征框,这就分为两部分了,将相互相交的特征框(特征框提取是一个物体)当做是一个点,两两特征框之间形成一条边,是图中的edges,而concatenate的意思是拼接,自然语言处理中concatenate是指将两个向量首尾相连形成一个新的向量,这样就具有了一种语义上的关系。
      而上面两条路,最上面那条则是将提取整个场景图的视觉特征,中间那条路则是将物体的视觉视觉特征提取出来。
      将上面提到的三个部分送入一个结构推理结构中,这个框架和17年李菲菲团队提出的通过迭代信息传递来生成场景图这篇论文的架构类似,我们具体来看一下具体是怎么做的。
      这里写图片描述
      GRU想必大家并不陌生,是LSTM网络的变形,将遗忘门和输入门合并成了一个跟新门,而重置门决定了过去有多少信息
      如图中ht(nodes)就是上一阶段物体的隐含状态,x是图像和边的特征矩阵作为的输入,ht+1是下一状态物体的隐含状态,且ht和x有相同的维度。通过GRU网络可以把这种语义信息传递,形成一种语义关系。
      这里写图片描述
      我们可以看到,对于对象vi,在场景GRU的输入为场景上下文消息mis,初始隐藏状态为节点vi特征fiv。对于从节点v1到节点vi的消息me 1-i,由edge e1-i来控制,所有其他对象的这些消息作为me-i进行集成,以输入边GRU。边缘GRU的初始隐状态也是fiv。然后这两组GRU输出集成在一起作为最终更新的节点状态。而池化层后面作者讲到,计算节点的集成信息,用组大池化可以提取到最重要的特征,如果用平均池化的话,信息就会被不相关信息所干扰,而节点的下一状态的表示,作者说通过实验表明,平均池化的效果反而更好。
  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值