【VQA】ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and Intra-modal Knowledge

最新推荐文章于 2024-08-09 16:21:21 发布

今天也要学习！

最新推荐文章于 2024-08-09 16:21:21 发布

阅读量407

点赞数

分类专栏： VQA 文章标签：深度学习

本文链接：https://blog.csdn.net/avast510/article/details/124283941

版权

ROSITA通过使用Scene Graph来表示图像和文本特征，引入跨模态和内在模态知识，提升VLP模型的语义对齐效果。图像特征结合视觉和位置信息，文本特征则由word、position和token_type Embedding组成，通过多层Transformer进行融合。模型应用结构知识遮挡进行MLM任务，并提供了相关研究文献链接。

摘要由CSDN通过智能技术生成

动机：现有的VLP方法没有充分利用图像-文本对的内在知识，限制了学习对其的有效性，从而限制模型效率。
创新：1.以Scene graph形式分别表示text和image特征；
2.引入cross modal and intro modal 知识；
2.1 intro modal knowledge: 图像中各个object之间的关系、region之间的spatial关系、以及文本相邻单词之间的上下文联系。
2.2 cross modal knowledge:与图像中object语义相关的文本中的单词。如：grass in image related to the word steppe
3.structural knowledge masking: use scene graph as priori to perform MLM
代码：https://github.com/MILVLG/rosita[代码中没有涉及到Scene Graph的构建和统一的代码，只有多层Transformer的代码]

图像特征表示：在这里插入图片描述

分为两个部分，视觉特征和位置特征。两者分别经过线性层后再相加得到最终的图像特征，相当于引入了位置编码信息。

文本特征表示：
文本特征的编码由三种不同的编码层构成，分别是wordEmbedding、positionEmbedding、token_typeEmbedding。最终的特征编码是三个的相加。

网络结构：图像特征和文本特征拼接送入多层的Transformer结构中

模型图

可用的参考文献：

Ernie-vil: Kno

最低0.47元/天解锁文章

今天也要学习！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【VQA】ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and Intra-modal Knowledge

动机：现有的VLP方法没有充分利用图像-文本对的内在知识，限制了学习对其的有效性，从而限制模型效率。创新：1.以Scene graph形式分别表示text和image特征；2.引入cross modal and intro modal 知识；2.1 intro modal knowledge: 图像中各个object之间的关系、region之间的spatial关系、以及文本相邻单词之间的上下文联系。2.2 cross modal knowledge:与图像中object语义相关的文本中的单词。如：g
复制链接

扫一扫

专栏目录