哈工大讯飞联合实验室发布图文多模态预训练模型VLE

最新推荐文章于 2024-08-09 10:26:17 发布

zenRRan

最新推荐文章于 2024-08-09 10:26:17 发布

阅读量783

点赞数

文章标签：人工智能深度学习机器学习自然语言处理计算机视觉

原文链接：https://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247517685&idx=3&sn=12bc8e17fd2607c1149f20991f22523b&chksm=eb539166dc241870a00352533128224487d599d963c7fbeb1feeaf400b35475f4ff50150f95d&scene=126&sessionid=0

版权

哈工大讯飞联合实验室（HFL）开源了其首个多模态预训练模型VLE，该模型在视觉问答和视觉常识推理任务中表现出色。VLE采用双流结构，结合DeBERTa-v3和CLIP-ViT，通过预训练任务如掩码预测、图文匹配等提升模型能力。此外，项目提出了VQA+LLM方案，利用大型语言模型增强视觉问答的准确性。

摘要由CSDN通过智能技术生成

来自：HFL实验室

进NLP群—>加入NLP交流群

哈工大讯飞联合实验室（HFL）开源预训练模型家族迎来首个多模态预训练模型VLE（Vision-Language Encoder）。借助更强的单模型编码器、更细致的预训练目标和更契合下游任务的适配方案，VLE模型不仅具有良好的多模态理解能力，还具备了出色的多模态推理能力，此前荣登VCR评测榜首，相比其他同等规模模型具有显著的优势。此外，借助大型语言模型（LLM）出色的零样本学习能力，本项目设计了一种VQA+LLM方案，将大型语言模型集成到视觉问答任务中，帮助视觉问答模型生成更准确和流畅的答案。目前VLE相关预训练模型、精调模型、源代码等资源已开源，欢迎读者下载使用。

项目地址：https://github.com/iflytek/vle

演示地址：https://huggingface.co/spaces/hfl/VQA_VLE_LLM

简介

多模态预训练模型通过在多种模态的大规模数据上的预训练，可以综合利用来自不同模态的信息，执行各种跨模态任务。本项目提出图像-文本多模态预训练模型VLE（Vision-Language Encoder），可应用于如视觉问答、图像-文本检索等多模态判别式任务。特别地，VLE在对语言理解和推理能力有更强要求的视觉常识推理（VCR）任务中取得了公开模型中的最佳效果。

模型结构

VLE模型采用双流结构，与METER模型结构类似，由两个单模态编码器（图像编码器和文本编码器）和一个跨模态融合模块构成。文本编码器初始化采用了DeBERTa-v3，图像编码器初始化采用了CLIP-ViT。输入的图片和文本分别经过图像编码器和文本编码器进行编码，送入跨模态融合模块进行信息交互，再经由任务特定的预测模块得到最终输出。

预训练任务‍‍

VLE使用图文对数据进行预训练。在预训练阶段，VLE采用了四个预训练任务：

- MLM (Masked Language Modeling)：掩码预测任务。给定图文对，随机遮掩文本中的部分单词，训练模型还原遮掩的文本。
- ITM (Image-Text Matching)：图文匹配预测任务。训练模型判断图像和文本是否匹配。
- MPC (Masked Patch-box Classification)：遮掩Patch分类任务，给定图文对，并遮掩掉图片中包含具体对象的patch，训练模型预测对象种类。
- PBC (Patch-box Classification)：Patch分类任务。给定图文对，预测图片中的哪些patch与文本描述相关。

这些预训练任务各有侧重：MLM任务提升模型的语言理解能力；ITM和MPC任务提升模型的图文交互能力；PBC任务提升模型的精确定位能力。下图展示了模型的结构和部分预训练任务（MLM、ITM和MPC）的流程。

VLE模型结构与预训练任务示意图

下游任务适配

本项目将VLE应用于视觉问答（VQA）和视觉常识推理（VCR）两个多模态任务。对于VCR任务，我们采用了基于目标信息的图文对齐增强机制，并扩展了token_type_ids，为图片和文本中的对象添加了对象表示嵌入，实现“物”与“名”的对应。

效果对比

下表中对比了VLE、METER以及其他多模态模型的参数量、预训练数据和下游任务效果。其中VQA任务展示的的是test-dev集效果，VCR任务展示的是dev集效果。通过观察实验结果可以发现，

- VLE的预训练更高效：与大小相近的模型相比，VLE使用了更少的预训练数据，并在视觉问答上取得了相当的效果。
- VLE有更强的推理能力：在对推理能力要求更高的视觉常识推理VCR任务上，VLE显著地超过了具有相似结构的METER。

†：复现效果

* ：Pairs: 图文对数量；I：图片数据数量；T：文本数据大小

VQA+LLM：结合大模型的视觉问答

近期，随着指令微调、RLHF等技术的发展，LLM在多种文本任务中取得了显著性能提升。虽然大多数LLM是单模态模型，但它们的能力也可用于辅助多模态理解任务。具体而言，本项目提出了一种VQA + LLM方案，将多模态模型与LLM集成到视觉问答任务中，从而帮助VQA模型生成更准确和流畅的答案。下图展示了系统流程。

首先，本项目利用captioning模型生成图片的描述，然后将图片描述、问题以及VQA模型的预测结果进行拼接，构造合适的prompt送入LLM，最后要求LLM模型回复最合理的答案。下面给出了两组示例，不难看出VQA+LLM生成的答案更准确并且具有更好的可读性。读者可通过以下链接体验视觉问答Demo。‍‍‍

视觉问答Demo：https://huggingface.co/spaces/hfl/VQA_VLE_LLM