VQA系列论文(二)

论文阅读:《Multimodal Graph Networks for Compositional Generalization in Visual Question Answering》

标题:视觉问答中关于组合泛化的多模态图神经网络
来源:NeurlPS 2020https://proceedings.neurips.cc/paper/2020/hash/1fd6c4e41e2c6a6b092eb13ee72bce95-Abstract.html
代码:https://github.com/raeidsaqur/mgn

一、问题提出

重点:组合泛化问题

image-20220330222600810

例子:自然语言为例,比如人们能够学习新单词的含义,然后将其应用到其他语言环境中。一个人如果学会了一个新动词 ‘dax’ 的意思,就能立即类推到 ‘sing and dax’ 的意思。” 类似地,在训练的时候,可能在测试集中出现了训练集中没有出现过的元素“组合”(这些元素在训练集中存在)。如:训练集中有“红色的狗”、“绿色的猫”,但是测试集中的数据是“红色的猫”。

问题:在最近的研究表明,模型无法推广到新的输入,而这些输入仅仅是训练集组合分布所见元素中的未遇见过的组合[6]。

一般地,使用卷积神经网络(CNN)构建多模态表示的神经架构将整个图像处理为单个全局表示(例如向量),但无法捕获这种细粒度相关性[29]。

基于神经符号的VQA方法(比如NMNs、NS-VQA和NS-CL)虽然在CLEVR等基准上取得了接近完美的分数[28,29]。但即使视觉输入的分布保持不变(输入图像不变),这些模型也无法推广到新的语言结构组合(问题发生变化)[6]。一个关键原因是缺乏关于图像和文本信息的细粒度的表示,这种表示允许在视觉和语言空间上进行联合合成推理。

二、主要思想

作者提出了一种基于图的多模态表示学习方法——多模态图网络(MGN),重点是可以实现更好的泛化效果。图结构可以去捕获实体、属性和关系,从而可以在不同模态(例如图像和文本)的概念之间建立更紧密的耦合。

动机

image-20220330222712364

考虑图中的图像和相关的问题:“在大的绿色圆柱体后面有一个黄色的橡皮立方体。”回答这个问题需要首先找到绿色圆柱体,然后扫描它后面的空间,寻找黄色的橡胶立方体。具体来说,1)虽然可能存在其他对象(例如,另一个球),但关于它们的信息可以被抽象出来,2)需要在代表“黄色”和“立方体”的视觉和语言输入之间建立细粒度的联系。

核心思想:将文本和图像都表示为,自然可以使两种模式之间的概念更紧密地耦合,并为推理提供合成空间。具体来说,首先将图像和文本解析为单独的图,对象实体和属性作为节点,关系作为边。然后,我们使用类似于图神经网络[16]中使用的消息传递算法(message passing),在两种模式的节点对之间导出相似因子矩阵(correspondence factor matrix)。最后,使用基于图的聚合机制来生成输入的多模态向量表示

具体模型

image-20220330222824041

Part1:图结构

多模态输入实例:元组(s,t),其中s是源文本输入(例如,问题或标题),t是对应的目标图像。
图形解析器(Graph Parser):
输入:元组(s,t)
输出:相应的以对象为中心的图 G s = ( V s , A s , X s , E s ) G_s=(V_s,A_s,X_s,E_s) Gs=(Vs,As,Xs,Es) G t = ( V t , A t , X t , E t ) G_t=(V_t,A_t,X_t,E_t) Gt=(Vt,At,Xt,Et)
其中,图中所有节点构成集合V,A是图的邻接矩阵,X是图G中所有节点V的特征矩阵,E是图G中所有边的特征矩阵。
具体的方法:
对输入文本s,使用实体识别模块将对象和属性捕获为图形节点V,然后使用关系匹配模块捕获节点的关系作为图 G s G_s Gs中的边。

image-20220330222915472

对图像t,使用预训练的Mask RCNN和ResNet-50 FPN图像语义分割模块来获取对象、属性和位置坐标(x、y、z)。这些节点在图 G t G_t Gt中形成单独的节点。
G s G_s Gs G t G_t Gt中构造节点和边之后,通过使用预先训练的语言模型中的词向量嵌入(word embadding)(假设维度为d)作为文本图节点(对象、属性)和边(关系)的特征向量,从而获得特征矩阵X和E。对于图像场景图,我们使用从“解析场景”(来自Mask-RCNN通道)获得的对象和属性标签作为语言模型的输入,来获得特征嵌入。
图形匹配器(Graph Matcher):
输入:图 G s = ( V s , A s , X s , E s ) G_s=(V_s,A_s,X_s,E_s)

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值