视觉理解论文系列(五)Fusion of Detected Objects in Text for Visual Question Answering(B2T2)

最新推荐文章于 2022-02-09 11:05:00 发布

薛定猫的谔w

最新推荐文章于 2022-02-09 11:05:00 发布

阅读量956

点赞数

分类专栏：视觉常识推理文章标签：计算机视觉人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/csdn_tclz/article/details/109592746

版权

Google研究院提出B2T2模型，通过早期融合视觉和语言特征，改善视觉问答任务的性能。文章对比了双编码器与B2T2，指出在token层面结合图像和文本信息的重要性，并在VCR任务中取得良好效果。

摘要由CSDN通过智能技术生成

背景

这篇论文的工作来自Google研究院。作者提出B2T2模型(“Bounding Boxes in Text Transformer”)，B2T2是一个任务特定模型(文中也只在VCR任务进行了评测)，B2T2是一个将vision和language combine起来作为输入的single-stream架构。作者提到视觉特征与文本特征的early fusion是模型取得良好成效的关键。

动机

vision-linguistic任务的一大难点在于如何在神经架构中编码视觉和语言特征。诸如文本实体如何绑定到图像中可见的区域、视觉特征与文本特征究竟是前融合还是后融合好?跨模态协同引用是如何编码的?在编码句子语义之前先在视觉世界中定义单词是否有意义等等尚未有明确的答案。作者通过实验研究发现了前融合的有效性，此外，模型获得越多的视觉特征取得的效果越好(感觉是肯定的?)，图像中区域的位置信息也很有价值。

问题定义

假设输入数据的格式是元组形式 $(I, B, T, l)$
$I$ 是图像， $B=[b_1,b_2,...,b_m]$

最低0.47元/天解锁文章

薛定猫的谔w

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
视觉理解论文系列(五)Fusion of Detected Objects in Text for Visual Question Answering(B2T2)

背景这篇论文的工作来自Google研究院。作者提出B2T2模型(“Bounding Boxes in Text Transformer”)，B2T2是一个任务特定模型(文中也只在VCR任务进行了评测)，B2T2是一个将vision和language combine起来作为输入的single-stream架构。作者提到视觉特征与文本特征的early fusion是模型取得良好成效的关键。动机vision-linguistic任务的一大难点在于如何在神经架构中编码视觉和语言特征。诸如文本实体如何绑定到图像
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。