【论文阅读】Learning Semantic-Specific Graph Representationfor Multi-Label Image Recognition

目录

Abstract

SSGRL Framework

语义解耦模块

语义交互模块

信息传播


Abstract

        识别图像的多个标签是一项实用和具有挑战性的任务,通过搜索语义感知区域和建模标签依赖性已经取得了重大进展。然而,由于缺乏部分级的监督或语义指导,目前的方法无法准确地定位语义区域。此外,他们不能充分探索语义区域之间的相互作用,也没有明确地建模标签共现。为了解决这些问题,我们提出了一个特定语义的图表示学习(SSGRL)框架,它由两个关键模块组成:

  1. 是一个语义解耦模块,它包含类别语义来指导学习特定语义的表示
  2. 一个语义交互模块,将这些表示与构建在统计标签共现基础上的图关联起来,并通过图传播机制探索它们的交互

SSGRL Framework

给定一个输入图像,我们首先将其输入到一个CNN中来提取图像表示。然后,语义解耦(SD)模块结合类别语义来指导学习特定语义的表示,语义交互模块使用图将这些表示关联起来,并采用图神经网络(GNN)来探索它们的交互。

语义解耦模块

该模块通过语义引导注意机制来实现。

输入640 x 640 x 3的图片,通过ResNet-101提取出特征向量fI,论文将ResNet-101最后一层的全局平均池化层改成了2 x 2,步长为2的平均池化层,该操作为了更好的与语义向量进行结合

输入类别词,通过Glove模型训练出语义向量xc(这里使用Glove模型是因为该模型同时考虑到了局部和整体的信息),Glove模型的目的:进行词的向量化表示,使得向量之间尽可能多的蕴含语义和语法信息。论文中将语义向量xc设置为300。

原博主选择了部分的类别词,通过Glove模型训练出对应的维度为300的词向量,将其降维可视化。可以从图中看到表示数字的词语几乎重叠在一起了,可见通过Glove模型进行词的向量化,的确使向量蕴含了更多的语法信息。

得到特征向量fI和语义向量xc后,通过低秩双线性池化的哈达玛积公式将两个模态独自和有关联的信息进行融合,映射到一个低维空间中。公式如下: 

该公式体现了每个位置的重要性。论文在ResNet-101上进行改进就是为了将最后输出的1 x 1 x 2048的特征向量变成3 x 3 x2048的特征向量,更好的体现每个位置(w,h)的重要性,使特征向量和语义向量更好的进行融合。

在得到每个位置的特征向量后,利用一个1024到1的全连接层fa,得到单一系数,为了更好的比较每个位置的系数,通过softmax函数将其归一化,得到最终的注意力系数。最后通过注意力系数和特征向量的加权平均得到带有语义类别的特征向量。

语义交互模块

一旦获得了对应于所有类别的特征向量,我们就将这些向量以基于统计标签共生关系构建的图的形式进行关联,并引入图神经网络来通过图传播消息以探索它们的相互作用。

其实这个模块引用了ICLR2016提出的GGNN(门控图神经网络)框架,这个框架是在传统GNN上进行改进的。本篇论文的创新在于将GGNN中的聚合特征的框架进行了一定的修改,但是其他传播方式不变。下面将会详细讲解这个模块。

首先得理解图的结构,图是由结点和边组成的,在SSGRL框架中,结点表示类别,边表示两个类别之间共现的概率。

这里的图模型重点在于边,因为不同的图中边的类型是不一样的,边也分出度和入度(如图,bicycle---->person和bicycle<----person是不一样的)。论文在这里将图结构写作{V,A},V表示不同的类别词{v0,v1,v2…,v(c-1)},A表示在c类别存在的条件下,c’类别存在的概率,A表示为{a00,a01,a02…,a0(c-1),…a(c-1)(c-1)}。

信息传播

在了解该框架中图的结点和边代表的含义后,利用图传播机制进行结点间信息的传播与聚合。

在门控图神经网络中引入了一个隐藏状态的概念。将某个结点的周围信息融合成一个向量表示,我们把这个向量定义为隐藏状态。论文中将通过语义解耦得到的特征向量做为t=0时刻的隐藏向量。

整篇论文最重要的点应该在于这个聚集特征向量,也是与之前GGNN不同的地方。特征聚合向量是由两个与共现概率进行加权求和的特征向量拼接而成的。(注意这里的a(cc’)和a(c’c)不一定相同,举例:c为人,c‘为车。训练集中存在人的照片有1000张,这1000张图中人车共同出现的图片有800张,因此a(cc’)=0.8;而存在车的照片有1200张,人车共现的图片为800张,因此a(c’c)=0.75)。

上图公式表示GGNN的特征聚合公式,是利用邻接矩阵来突出边的类型与传播方向。相比GGNN的特征聚合,论文引入了共现概率a(cc’),个人认为目的在于使图的边类型更加丰富化,以及丰富了语义信息,引入了共现机制。

在获得聚集特征向量后,就是利用类似于GRU(门控循环网络)的算法去进行隐藏状态的更新。公式如下:

 

在理解更新机制后,有助于更好理解门控图神经网络的传播形式。如上图,有四个类别,拟定迭代次数为3(T=3),t=1时,隐藏向量为初始的特征向量;t=2时,隐藏向量聚合了来自周围结点的信息,以类别4为例,收集了来自t=1时刻类别2和类别3的隐藏状态的信息;t=3时,以类别4为例,收集了t=2时刻类别2和类别3的信息,但同时,类别2分别收集了t=1时刻来自类别1,类别3,类别4的信息,类别3收集了t=1时刻来自类别2和类别4的信息。因此t=3时,类别4收集了来自类别1,类别2,类别3的信息,即收集结点周围相关性高的信息。

论文中的迭代次数T设置为3,结合上图,可以直观看出结点在经过三次的迭代后只结合了部分的结点信息,并没有将所有的结点信息进行结合。其实这里就是GGNN在传统的GNN上的一个改进,GGNN将迭代次数固定,而GNN是迭代至收敛(不动点)才停止。GNN的迭代机制造成了大量的计算,以及经过多次的迭代后,结点变得过于光滑,即收集了大量的周围信息,而自身信息造成了丢失。

fo是一个4096到2048的全连接层,fc是一个2048到1的全连接层。得到每个类别的预测得分后,获得得分向量sic,再经过sigmoid函数处理获得概率向量pic。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值