【VQA】ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and Intra-modal Knowledge

ROSITA通过使用Scene Graph来表示图像和文本特征,引入跨模态和内在模态知识,提升VLP模型的语义对齐效果。图像特征结合视觉和位置信息,文本特征则由word、position和token_type Embedding组成,通过多层Transformer进行融合。模型应用结构知识遮挡进行MLM任务,并提供了相关研究文献链接。
摘要由CSDN通过智能技术生成

动机:现有的VLP方法没有充分利用图像-文本对的内在知识,限制了学习对其的有效性,从而限制模型效率。
创新:1.以Scene graph形式分别表示text和image特征;
2.引入cross modal and intro modal 知识;
2.1 intro modal knowledge: 图像中各个object之间的关系、region之间的spatial关系、以及文本相邻单词之间的上下文联系。
2.2 cross modal knowledge:与图像中object语义相关的文本中的单词。如:grass in image related to the word steppe
3.structural knowledge masking: use scene graph as priori to perform MLM
代码:https://github.com/MILVLG/rosita[代码中没有涉及到Scene Graph的构建和统一的代码,只有多层Transformer的代码]

图像特征表示:在这里插入图片描述

分为两个部分,视觉特征和位置特征。两者分别经过线性层后再相加得到最终的图像特征,相当于引入了位置编码信息。

文本特征表示:
文本特征的编码由三种不同的编码层构成,分别是wordEmbedding、positionEmbedding、token_typeEmbedding。最终的特征编码是三个的相加。

网络结构:图像特征和文本特征拼接送入多层的Transformer结构中

模型图

可用的参考文献:

  1. Ernie-vil: Kno
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值