恐怕不行-CSDN博客

原创图像变换矩阵

图像坐标变换矩阵

2022-07-21 15:34:49 638

原创 ROSITA：使用模态间与模态内知识融合增强V+L语义对齐

一、研究背景最近的两个VLP模型，OSCAR和ERNIE-ViL通过不同的方法从数据中引入了额外的知识来促进语义对齐的学习。OSCAR额外提取了预测得到的图像区域类别，并将其隐式地作为对齐文本词语的anchor。ERNIE-ViL显式地从文本中构建了一个场景图，并在预训练中更关注场景图中的关键词（如对象及其属性和关系）。在知识来源方面，它们都使用来自单一模态的模态内知识来增强语义对齐：OSCAR引入了图像模态的模态内知识，而ERNIE-ViL引入了文本模态的模态内知识。上述两种方法的成功带来了一个问题：是

2021-12-07 15:50:46 1073

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 图像变换矩阵

原创 ROSITA：使用模态间与模态内知识融合增强V+L语义对齐

空空如也

空空如也

原创图像变换矩阵