- 博客(2)
- 收藏
- 关注
原创 ROSITA:使用模态间与模态内知识融合增强V+L语义对齐
一、研究背景最近的两个VLP模型,OSCAR和ERNIE-ViL通过不同的方法从数据中引入了额外的知识来促进语义对齐的学习。OSCAR额外提取了预测得到的图像区域类别,并将其隐式地作为对齐文本词语的anchor。ERNIE-ViL显式地从文本中构建了一个场景图,并在预训练中更关注场景图中的关键词(如对象及其属性和关系)。在知识来源方面,它们都使用来自单一模态的模态内知识来增强语义对齐:OSCAR引入了图像模态的模态内知识,而ERNIE-ViL引入了文本模态的模态内知识。上述两种方法的成功带来了一个问题:是
2021-12-07 15:50:46 895
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人