ROSITA:使用模态间与模态内知识融合增强V+L语义对齐
一、研究背景
最近的两个VLP模型,OSCAR和ERNIE-ViL通过不同的方法从数据中引入了额外的知识来促进语义对齐的学习。OSCAR额外提取了预测得到的图像区域类别,并将其隐式地作为对齐文本词语的anchor。ERNIE-ViL显式地从文本中构建了一个场景图,并在预训练中更关注场景图中的关键词(如对象及其属性和关系)。在知识来源方面,它们都使用来自单一模态的模态内知识来增强语义对齐:OSCAR引入了图像模态的模态内知识,而ERNIE-ViL引入了文本模态的模态内知识。上述两种方法的成功带来了一个问题:是
原创
2021-12-07 15:50:46 ·
877 阅读 ·
0 评论