动机:现有的VLP方法没有充分利用图像-文本对的内在知识,限制了学习对其的有效性,从而限制模型效率。
创新:1.以Scene graph形式分别表示text和image特征;
2.引入cross modal and intro modal 知识;
2.1 intro modal knowledge: 图像中各个object之间的关系、region之间的spatial关系、以及文本相邻单词之间的上下文联系。
2.2 cross modal knowledge:与图像中object语义相关的文本中的单词。如:grass in image related to the word steppe
3.structural knowledge masking: use scene graph as priori to perform MLM
代码:https://github.com/MILVLG/rosita[代码中没有涉及到Scene Graph的构建和统一的代码,只有多层Transformer的代码]
图像特征表示:
分为两个部分,视觉特征和位置特征。两者分别经过线性层后再相加得到最终的图像特征,相当于引入了位置编码信息。
文本特征表示:
文本特征的编码由三种不同的编码层构成,分别是wordEmbedding、positionEmbedding、token_typeEmbedding。最终的特征编码是三个的相加。
网络结构:图像特征和文本特征拼接送入多层的Transformer结构中
模型图
可用的参考文献:
- Ernie-vil: Kno