论文笔记--ERNIE-ViL: Knowledge Enhanced Vision-Language Representations through Scene Graphs
1. 文章简介
- 标题:ERNIE-ViL: Knowledge Enhanced Vision-Language Representations through Scene Graphs
- 作者:Fei Yu, Jiji Tang, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang
- 日期:2021
- 期刊:AAAI
2. 文章概括
文章提出了一种基于Scene Graph Prediction(SGP)来进行多模态模型预训练的方法,得到预训练模型ERNIE-ViL。实验证明,ERNIE-ViL在多个NLP任务中达到了SOTA水平,且在VCR任务上实现3.7%的提升,表明SGP预训练目标对“需求模型理解详细语义对齐”的任务有显著的帮助。
3 文章重点技术
3.1 模型架构
文章的目的是训练一个多模态模型。常用的多模态模型训练方法包括统一的视觉-文本模型和双流Transformer两类。文章选用的是双流跨模态Transformer。具体来说,
- 针对文本部分,文章采用了类BERT架构,通过wordpiece进行分词,输入内容为单词、位置和分隔id的结合,最终通过[CLS]来表示最终的句子嵌入;
- 针对图像部分,文章首先通过一个目标检测器将图像中的目标区域提取出来,假设输入图片的宽度为 W W W,高度为 H H H,检测到的目标的左上角坐标为 ( x 1 , y 1 ) (x_1, y_1) (x1,y1),右上角坐标为 ( x 2 , y 2 ) (x_2, y_2) (x2,y2),则构建每个目标区域的位置向量为 ( x 1 W , y 1 H , x 2 W , y 2 H , ( y 2 − y 1 ) ( x 2 − x 1 ) W H ) (\frac {x_1}W, \frac {y_1}{H}, \frac {x_2}W, \frac {y_2}{H}, \frac {(y_2-y_1)(x_2-x_1)}{WH}) (Wx1,Hy1,Wx2,Hy2,WH(y2−y1)(x2−x