一文读懂「MLLM,Multimodal Large Language Model」多模态大语言模型

在这里插入图片描述

一. 什么是多模态?

模态是事物的一种表现形式,多模态通常包含两个或者两个以上的模态形式,是从多个视角出发对事物进行描述。生活中常见多 模态表示,例如传感器的数据不仅仅包含文字、图像,还可以包括与之匹配的温度、深度信息等。使用多模态数据能够使得事物呈现更加立体、全面,多模态研究成为当前研究重要方面,在情感分析、机器翻译、自然语言处理 和生物医药前沿方向取得重大突破。

1.1 背景

在这里插入图片描述

  1. Transformer颠覆传统模型,但限于单模态领域
  2. ViT的出现打通了CV和NLP之间壁垒,推动多模态演进,ViT中的Patch embedding在提取视觉特征方面效率优势明显
  3. 基于Vision Transformer,Video Transformer模型出现,如TimeSformer;
  4. Transformer权重共享决定其适合多模态,
### 关于LLM、MLLM和LVM的区别与应用 #### LLM(大型语言模型) 大型语言模型是指那些通过大量文本数据训练而成的神经网络架构,这些模型能够理解和生成自然语言。随着参数量的增长,这类模型展现出了惊人的语言理解与推理能力,在处理各种语言任务时表现优异。然而,它们对于视觉信息的理解较为有限[^2]。 #### MLLM多模态大型语言模型) 多模态大型语言模型不仅继承了传统大型语言模型的强大功能,还引入了十亿级参数规模的支持,从而更好地完成复杂的推理工作。更重要的是,为了充分发挥潜力,MLLM采用了诸如多模态指令微调等新颖的训练方法,使得模型可以根据不同形式的数据输入做出响应并执行相应操作。这种特性让MLLM能够在图像描述生成、视频字幕创建等多个跨领域应用场景中发挥作用[^1]。 此外,最新的研究表明,MLLM正在不断拓展自身的边界,无论是基础性能还是适用范围都得到了极大改善。不过值得注意的是,当前有关MLLM的情境学习及思维链条构建等方面的研究仍处在起步阶段,未来还有很大的发展空间[^4]。 #### LVM(大型视觉模型而非线性虚拟机) 这里提到的LVM并非指代编程中的线性虚拟机概念,而是特指专注于计算机视觉领域的大型预训练模型。该类模型擅长解决各类视觉识别问题,比如物体检测、分类等。虽然在特定视觉任务上的准确性很高,但在涉及逻辑分析或抽象思考的任务面前则显得力不从心。 综上所述,三种类型的模型各自拥有独特的优势和技术侧重点: - **LLM** 主要在纯文字环境中表现出色; - **MLLM** 则进一步融合了多种感官模式下的交互体验; - 而 **LVM** 更加侧重于图形化内容的认知解析;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

朱晓霞AI

您的鼓励是我最大的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值