2019:Fusion of Detected Objects in Text for Visual Question Answering

摘要

        为了推进多模态上下文的模型,我们引入了一个简单但强大的结合视觉和自然语言的数据神经架构。“文本Transformer中的边界框”(B2T2)还利用简单统一的体系结构中的引用信息绑定词到图像的部分。B2T2在视觉常识推理基准上非常有效,与发布的基线相比降低了25%的错误率,并在公共排行榜上获得了最佳性能(截至2019年5月22日)。详细的消融分析表明,早期将视觉特征整合到文本分析中是实现新体系结构有效性的关键。

一、介绍

        不同的上下文概念导致了对下游NLP任务的不同程度的成功,最近的神经结构,包括Transformer和BERT,显著提高了我们包含一个广泛的潜在词汇提示窗口的能力。然而,同样的能力允许多模态上下文,这可能有助于建模单词的一般含义,并提高其对上下文中单词实例的理解。

        本文中,我们也考虑了视觉上下文,并表明视觉和语言信息的正确整合可以改进VQA。我们要解决的是如何在神经结构中编码视觉和语言信息,如何最好的做到这一点仍不清楚。文本实体怎样与图像中的对象绑定?文本和图像最好整合较晚,以允许独立分析(晚融合)?或一个处理应该以另一个的分析为条件(早融合)?跨模态共引用是如何最好的编码?在编码句子语义前,在视觉接地单词有意义吗?

       本工作中,我们通过设计在文本Transformer中的边界框来回答这些问题--B2T2,一种用于语言和图像的多模态编码的神经结构,我们在视觉常识推理基准上评估B2T2。

        图1显示了一个来自VCR基准测试的一个说明性示例。视觉常识推理很适合测试丰富的多模态表示,需要更多的建模能力进行语言理解。

         在我们的实验中,我们发现文本标记和对象视觉特征之间的早期融合是获得改善VCR的最关键因素。我们发现,我们在模型的输入中包含的视觉对象特征越多,模型的性能就越好,即使它们没有明确地共同引用文本,而且对图像中对象的位置特征也很有帮助。我们最终发现,当VCR模型从概念标题的预训练中初始化时,它们可以更可靠地进行训练,这是一个包含约300万张图像和标题的公共数据集。通过这些建模改进的结合,我们获得了一个新的视觉问答模型,该模型实现了VCR上的最先进水平,相对于最好的发布和记录的模型,错误率降低了25%以上。

 二、问题定义

        本工作中,我们假设数据由四元组组成(I,B,T,l):I为一个图像;B为指向I的区域的边界框列表,每个bi通过左下角、高度和宽度来确定;T是标记文本的一部分,具有一些标记不是自然语言,而是对B的明确引用;l是一个二值标签{0,1}。

        我们假设一个图像表示函数,可能在调整大小和填充后,将图像转换为维数为d的固定尺寸向量表示。

        同样,我们假设一个预训练过的文本表示,能够将任何标记化的文本段落,可能是在截断或填充之后,转换为维度为h的向量表示。假设一个上下文独立的标记表示E,维度h,

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值