论文笔记--ERNIE-ViL: Knowledge Enhanced Vision-Language Representations through Scene Graphs

ERNIE-ViL是一种使用SceneGraphPrediction进行预训练的多模态模型,它通过目标预测、属性预测和关系预测增强视觉-语言理解,提高了NLP任务的性能,特别是在VCR任务上表现突出。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文笔记--ERNIE-ViL: Knowledge Enhanced Vision-Language Representations through Scene Graphs

1. 文章简介

  • 标题:ERNIE-ViL: Knowledge Enhanced Vision-Language Representations through Scene Graphs
  • 作者:Fei Yu, Jiji Tang, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang
  • 日期:2021
  • 期刊:AAAI

2. 文章概括

  文章提出了一种基于Scene Graph Prediction(SGP)来进行多模态模型预训练的方法,得到预训练模型ERNIE-ViL。实验证明,ERNIE-ViL在多个NLP任务中达到了SOTA水平,且在VCR任务上实现3.7%的提升,表明SGP预训练目标对“需求模型理解详细语义对齐”的任务有显著的帮助。

3 文章重点技术

3.1 模型架构

  文章的目的是训练一个多模态模型。常用的多模态模型训练方法包括统一的视觉-文本模型和双流Transformer两类。文章选用的是双流跨模态Transformer。具体来说,

  • 针对文本部分,文章采用了类BERT架构,通过wordpiece进行分词,输入内容为单词、位置和分隔id的结合,最终通过[CLS]来表示最终的句子嵌入;
  • 针对图像部分,文章首先通过一个目标检测器将图像中的目标区域提取出来,假设输入图片的宽度为 W W W,高度为 H H H,检测到的目标的左上角坐标为 ( x 1 , y 1 ) (x_1, y_1) (x1,y1),右上角坐标为 ( x 2 , y 2 ) (x_2, y_2) (x2,y2),则构建每个目标区域的位置向量为 ( x 1 W , y 1 H , x 2 W , y 2 H , ( y 2 − y 1 ) ( x 2 − x 1 ) W H ) (\frac {x_1}W, \frac {y_1}{H}, \frac {x_2}W, \frac {y_2}{H}, \frac {(y_2-y_1)(x_2-x_1)}{WH}) (Wx1,Hy1,Wx2,Hy2,WH(y2y1)(x2x
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值