自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_42653320的博客

视频视觉问答

关注

文章平均质量分 91

关注数：文章数：1 文章阅读量：535 文章收藏量：4

作者: weixin_42653320

主要做视觉问答方向

展开

2020：MMFT-BERT: Multimodal Fusion Transformer with BERT Encodings for Visual Question Answering

摘要我们提出MMFT-BERT来解决，VQA确保多个输入模态的单个和结合处理。我们的方法受益于分别采用BERT编码并使用一个新的基于transformer的融合模型处理多模态数据。我们的方法将不同模态分为具有相似结构的不同BERT实例，但权重可变。在TVQA中实现了SOTA结果。此外，我们提供了TVQA-visual，一种孤立的诊断子集，严格需要基于人类注释者的判断的视觉模态知识。这组问题帮助我们研究模型行为，以及TVQA不能超过人类表现的挑战。大量实验表明我们方法的有效性和优越性。 ...

原创 2021-09-24 15:46:46 · 535 阅读 · 0 评论