2020:MMFT-BERT: Multimodal Fusion Transformer with BERT Encodings for Visual Question Answering
摘要
我们提出MMFT-BERT来解决,VQA确保多个输入模态的单个和结合处理。我们的方法受益于分别采用BERT编码并使用一个新的基于transformer的融合模型处理多模态数据。我们的方法将不同模态分为具有相似结构的不同BERT实例,但权重可变。在TVQA中实现了SOTA结果。此外,我们提供了TVQA-visual,一种孤立的诊断子集,严格需要基于人类注释者的判断的视觉模态知识。这组问题帮助我们研究模型行为,以及TVQA不能超过人类表现的挑战。大量实验表明我们方法的有效性和优越性。
...
原创
2021-09-24 15:46:46 ·
535 阅读 ·
0 评论