视觉理解论文系列(五)Fusion of Detected Objects in Text for Visual Question Answering(B2T2)

Google研究院提出B2T2模型,通过早期融合视觉和语言特征,改善视觉问答任务的性能。文章对比了双编码器与B2T2,指出在token层面结合图像和文本信息的重要性,并在VCR任务中取得良好效果。
摘要由CSDN通过智能技术生成

背景

这篇论文的工作来自Google研究院。作者提出B2T2模型(“Bounding Boxes in Text Transformer”),B2T2是一个任务特定模型(文中也只在VCR任务进行了评测),B2T2是一个将vision和language combine起来作为输入的single-stream架构。作者提到视觉特征与文本特征的early fusion是模型取得良好成效的关键。

动机

vision-linguistic任务的一大难点在于如何在神经架构中编码视觉和语言特征。诸如文本实体如何绑定到图像中可见的区域、视觉特征与文本特征究竟是前融合还是后融合好?跨模态协同引用是如何编码的?在编码句子语义之前先在视觉世界中定义单词是否有意义等等尚未有明确的答案。作者通过实验研究发现了前融合的有效性,此外,模型获得越多的视觉特征取得的效果越好(感觉是肯定的?),图像中区域的位置信息也很有价值。

问题定义

假设输入数据的格式是元组形式 ( I , B , T , l ) (I,B,T,l) (I,B,T,l)
I I I是图像, B = [ b 1 , b 2 , . . . , b m ] B=[b_1,b_2,...,b_m] B=[b1,b2,...,b

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值