Abstract: 提出了一种MultiModalFusion Transformer-BERT编码的多模态融合转换器,用于视觉问答(VQA),采用单独的BERT编码处理多模式数据(视频和文本),然后使用一种新的基于Transformer的融合方法将其融合在一起。
Abstract: 提出了一种MultiModalFusion Transformer-BERT编码的多模态融合转换器,用于视觉问答(VQA),采用单独的BERT编码处理多模式数据(视频和文本),然后使用一种新的基于Transformer的融合方法将其融合在一起。