https://gitee.com/AI-Mart/ERNIE/tree/repro/ernie-vil
ERNIE-ViL 是面向视觉-语言任务的知识增强预训练框架,首次在视觉-语言预训练中引入了结构化的知识。ERNIE-ViL利用场景图中的结构化知识,构建了物体预测,属性预测,关系预测三种预训练任务,精细地刻画了视觉-语言模态之间细粒度语义的对齐,从而获得了更好的视觉-语言联合表示。
模型框架
基于文本中解析出的场景图,ERNIE-ViL提出了三个多模态场景图预测任务:
物体预测:随机选取图中的一部分物体,然后对其在句子中对应的词进行掩码和预测;
属性预测:对于场景图中的属性-物体组合,随机选取一部分词对其中属性词进行掩码和预测;
关系预测:对于场景图中的物体-关系-物体三元组,对其中的关系词进行掩码和预测。