视觉理解论文系列(一)——ERNIE-VIL

最新推荐文章于 2023-10-13 16:30:28 发布

薛定猫的谔w

最新推荐文章于 2023-10-13 16:30:28 发布

阅读量1.9k

点赞数

分类专栏：视觉常识推理文章标签：深度学习

本文链接：https://blog.csdn.net/csdn_tclz/article/details/107243612

版权

ERNIE-VIL是百度的预训练模型，通过结合场景图预测任务，增强视觉-语言的细粒度语义对齐。模型通过物体预测、属性预测和关系预测学习到跨模态的详细语义，提升理解能力。实验结果显示，该方法能有效提升视觉-语言任务的性能。

摘要由CSDN通过智能技术生成

简介

ERNIE-VIL是百度出品的知识增强视觉-语言预训练模型，首次将场景图知识融入到多模态预训练中，大幅提升了机器的“理解能力”。通过在预训练阶段加入场景图预测任务，使得模型能更精准的把握视觉-语言跨模态间的细粒度对齐。
论文观点，细粒度的语义对于区分不同对象、不同属性和不同关系的场景至关重要。因此，更好的视觉语言联合表示应该表现出不同模式之间详细的语义对齐。
在这里插入图片描述
以上这些样本中，只有物体、属性、关系上的细微差别，如果不能很好的抓住这些细粒度语义特征，将无法较好的把这些数据样本区分开来，导致在许多的视觉-语言任务中不会有很好的效果。

融合场景图知识的ERNIE-VIL

【A woman in a blue dress is putting her little white cat on top of a brown car in front of her house.】

当我们看到一张图片时，首先关注的是图像中的物体（Objects）和特点属性（Attributes）以及物体间的关系（Relationships）。以此图为例，人、车、房子、猫、树等构成了图片内容的基本元素；而物体的属性，如白色的猫、穿蓝色衣服的女人、棕色的汽车则是对物体做了更加精细的刻画；物体间的位置和语义关系，“猫在车上”、“车在房子前面”等构成了物体间的关联。这说明了对象、属性、关系共同构成了描述视觉场景的细粒度语义（Detailed Semantics）。
本篇论文的切入点在于如何让模型学到更好的细粒度特征表示。首先，基于从文本[1]解析出的场景图，ERNIE-VIL提出了3个多模态场景图预测（Scene Graph Prediction）任务，分别是：
物体预测（Object Prediction）：随机选取图像中的一部分物体，如图中的"house"，将其在句子中对应的词进行掩码处理，模型根据文本上下文和图片对被掩码的部分进行预测。损失函数设计,最小化负对数似然:
$\ _ o i , V ) ) L_{obj(\theta)}=-E_{(w,v)~D}log(P(W_{o_i}|W_{\backslash \_o_i},V))$