视觉特征在语言空间中如何分布?武大、上海交大提出统一多模态自回归建模框架...

研究者提出VW-LMM,一种通过视觉词表示视觉特征的多模态模型,解决了LMM中处理连续视觉嵌入的难题,实现统一目标的多模态自回归建模,提升模型的视觉-语言理解能力。
摘要由CSDN通过智能技术生成

b2fe72ba3940ab171fbbcf0c03d7f1a4.gif

©PaperWeekly 原创 · 作者 | 彭天硕

单位 | 武汉大学本科生

研究方向 | 多模态理解与生成

大型语言模型(LLMs)通过在大规模未注释文本语料库上执行自回归建模方法,展现出强大的感知和推理能力。然而,将自回归建模扩展到多模态场景以构建大型多模态模型(LMMs)时,存在一个很大的困难,即图像信息在 LMM 中被处理为连续的视觉嵌入,无法获得离散的监督标签用于进行分类损失计算。

在本文中,研究者首次成功地进行了采用统一目标的多模态自回归建模,并且进一步探讨了 LLMs 内部语义空间中视觉特征的分布以及使用文本嵌入来表示视觉信息的可能性。

afe3fdae6e456696fb79ed04a9a84807.png

论文题目:

Multi-modal Auto-regressive Modeling via Visual Words

论文地址:

https://export.arxiv.org/abs/2403.07720

代码地址:

https://github.com/pengts/VW-LMM

Hugging Face库:

https://huggingface.co/MYTH-Lab/VW-LMM-Vicuna-7b

https://huggingface.co/MYTH-Lab/VW-LMM-Mistral-7b

https://huggingface.co/MYTH-Lab/VW-LMM-Vicuna-pif-7b

edbb7d50a2fcb39eaa21e4a7ce5ed29c.png

动机

得益于在大规模未标记文本上执行自回归建模方法,大型语言模型(LLMs)能够从自然语言语料库中学习通用的语义信息和强大的推理能力。然而,对于将自回归建模扩展到多模态场景而言,存在一个很大的困难,即图像信息在 LMM 中被处理为连续的视觉嵌入,无法获得离散的监督标签用于分类损失计算。

  • 19
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值