《使用图LSTM进行语义对象解析》--论文阅读笔记

Semantic Object Parsing with Graph LSTM原文


2016年发表于计算机视觉三大会议之一的ECCV(European Conference on Computer Vision ) 欧洲计算机视觉国际会议。【另两个为:ICCV和CVPR】

摘要

【原文】
以语义对象解析任务为应用场景,提出了图长短期记忆(Graph Long-Term-Term Memory,简称Graph LSTM)网络,它是LSTM从时序数据或多维数据到一般图结构数据的推广。特别地,我们不是在现有的多维LSTM结构(例如,行、网格和对角LSTM)中将图像均匀固定地划分为像素或块,而是将每个任意形状的超像素作为语义一致的节点,并自适应地为每个图像构建无向图,其中超像素的空间关系自然用作边。在这种自适应图形拓扑上构建的图形LSTM更自然地与图像中的视觉图案(例如,对象边界或外观相似性)对齐,并且提供了更经济的信息传播路线。此外,对于图LSTM上的每一步优化,我们提出了一种置信度驱动的方案来逐步更新节点的隐藏状态和存储状态,直到所有节点都被更新。此外,对于每个节点,遗忘门被自适应地学习以捕获与相邻节点的不同程度的语义相关性。在四个不同的语义对象解析数据集上的综合评估很好地证明了我们的Graph LSTM相对于其他最先进的解决方案的显着优势。

【笔记】

  • 以语义对象解析任务为应用场景,提出了Graph
    LSTM,将传统的LSTM模型从顺序和多维数据扩展到一般的图结构数据,并在四个数据集中展示了其优越性。
    传统做法:
    在多维LSTM结构(例如,行、网格和对角)中将图像均匀且固定地划分为像素或块。
    ** 作者做法***
    -在自适应图形拓扑上构建的图形LSTM, 将每个任意形状的超像素作为语义一致的节点,并自适应地为每个图像构建无向图,其中超像素的空间关系自然用作边。
  • 对于图LSTM上的每一步优化,我们提出了一种置信度驱动的方案来逐步更新节点的隐藏状态和存储状态,直到所有节点都被更新。
  • 优点:
  • 能更自然地与图像中的视觉图案(例如,对象边界或外观相似性)对齐,提供了更经济的信息传播路线。

1.介绍

除了传统的图像语义分割,语义对象解析的目的是将图像中的对象分割成更细粒度的语义的多个部分,并提供对图像内容的全面理解,如图1所示。许多更高级的计算机视觉应用可以受益于强大的语义对象解析器,包括动作识别、服装识别和检索及人类行为分析。
在这里插入图片描述
最近,卷积神经网络(CNN)在各种像素级预测任务(例如语义分割,语义部分分割和深度预测)中都取得了令人兴奋的成功。
然而,纯粹的卷积滤波器只能捕捉有限的局部上下文,而对语义部分布局及其交互的精确推理需要图像的全局视角。例如,在宾语句法分析中区分“上臂”和“小臂”或“大腿”需要相对空间布局的感知和“躯干”等其他语义区域的预测的指导。为了考虑全局结构背景,以前的工作在纯像素级CNN分类器上使用稠密的成对连接(条件随机场(CRF))。然而,他们中的大多数人都试图基于预测置信度图对结构信息进行建模,在获取全局上下文信息时没有显式增强特征表示,导致复杂场景下的分割结果不是最优的。

另一种策略是通过直接扩展中间特征来利用远程依赖关系。多维(LSTM)网络在2D图像建模中产生了非常有希望的结果。其中,对于理解对象和场景至关重要的长范围依赖关系可以通过顺序作用于所有像素来很好地记忆。然而,就LSTM单元内的信息传播路径而言,现有的LSTM,大多只探索了预定义的固定拓扑。如图2的顶行所示,对于每个单独的图像,通过那些方法对每个像素的预测受到每个时间步中固定邻居(例如,2或8个相邻像素或对角邻居)的预测的影响。图像的自然属性(例如,局部边界和语义上一致的像素组)尚未被充分利用,以在这种固定的局部分解的LSTM中实现更有意义和更经济的推断。此外,固定拓扑的大量计算是冗余和低效的,因为它必须考虑所有的像素,即使对于简单的平面区域中的像素也是如此。

【注解】

  • 语义对象解析的目的:将图像中的对象分割成更细粒度的语义的多个部分,并提供对图像内容的全面理解。如图一。

实现方法:

一、CNN构建的语义分割网络
缺点:由于卷积滤波器只能捕捉有限的局部上下文,而对语义部分布局及其交互的精确推理需要图像的全局视角。

为了考虑全局结构背景的做法:
1.以前的工作在纯像素级CNN分类器上使用稠密的成对连接(条件随机场(CRF))。
缺点:

  1. 大多数都试是图基于预测置信度图对结构信息进行建模,在获取全局上下文信息时没有显式增强特征表示,导致复杂场景下的分割结果不是最优的。

二、多维LSTM
优点:

  1. 效果不错
  2. 对于理解对象和场景至关重要的长范围依赖关系可以通过顺序作用于所有像素来很好地记忆。

缺点:

  1. 现有的LSTM,大多只探索了预定义的固定拓扑,
  2. 图像属性尚未被充分利用尚未被充分利用;
  3. 固定拓扑的大量计算是冗余和低效的

本文提出了一种新的Graph LSTM模型,将传统的LSTM模型从顺序和多维数据扩展到一般的图结构数据,并在语义对象解析任务中展示了其优越性。与以往的LSTM算法不同,Graph LSTM将每个任意形状的超像素作为图的语义一致的结点,而空间邻域关系自然用于构造无向图的边,而不是像以往的LSTM那样将图像均匀地、固定地划分为像素或块。因此,可以根据图像中的局部结构,在不同节点与不同数目的邻居连接的情况下构建自适应图拓扑。如图2的底行所示,图LSTM不是像在先前的LSTM中那样按照固定的更新序列将信息广播到固定的局部邻域,而是建议针对每个图像沿着自适应图拓扑有效地将信息从一个自适应起始超像素节点传播到所有超像素节点。它可以有效地减少冗余的计算开销,同时更好地保留对象/部分边界,便于在整个图像上进行全局推理。
在这里插入图片描述
受最近的视觉注意模型的启发,结合图像自适应构建的图拓扑结构,我们提出了一种置信度驱动的方案来随后更新所有节点的特征。以前的LSTM通常简单地从预定义的像素或补丁位置开始,然后向其他像素前进或遵循不同图像的固定更新路线的补丁。相反,我们假设从适当的超像素节点开始,并沿着特定的内容自适应路径更新节点可以导致全局上下文建模的更灵活和可靠的推理,其中可以更好地捕捉每幅图像的视觉特征。具体地,对于每幅图像,基于初始特征在所有前景语义标签中具有最高预测置信度的超像素节点被视为起始节点。同时,根据所有节点对前景类的初始置信度降序排序ÿ

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值