【LMMs多模态大模型】

将额外模态(如图像输入)融入大语言模型(LLMs)被认为是 AI 研究和发展的一个关键新领域

将大语言模型 (LLMs) 扩展到多种数据类型,从而得到所谓的多模态大模型 (LMMs)。

DeepMind 的 Flamingo、Salesforce 的 BLIP、微软的 KOSMOS-1、Google 的 PaLM-E,还有腾讯的 Macaw-LLM。甚至像 ChatGPT 和 Gemini 这样的聊天机器人也采用了这种技术

不是所有多模态系统都属于 LMM。例如,像 Midjourney、Stable Diffusion 和 Dall-E 这样的文本到图像模型虽然是多模态的,但并不包含语言模型组件  这些是多模态系统

多模态可能指的是:

  1. 输入和输出属于不同模态(如文本到图像,图像到文本);
  2. 输入为多模态(例如,能同时处理文本和图像的系统);
  3. 输出为多模态(例如,能同时生成文本和图像的系统)。

多模态系统,包括 LMM

1、多模态的重要性

1、很多应用场景如果没有多模态技术支持几乎难以实现,尤其是在需要处理多种类型数据的领域,例如医疗、机器人、电商、零售、游戏等

2、综合使用多种数据模式的信息,可以显著提升模型的性能。比如,一个能够同时处理文本和图片的模型,其效果不是应该比只能处理文本或只能处理图片的模型更出色吗?

3、交互更加灵活多样,可以根据自己的喜好或场合选择交互方式,比如键盘输入、语音对话或者拍照识别

4、借助多模态技术,视力受损的人也能轻松浏览网络,甚至在真实世界中进行导航。

2、数据的多种模式

数据有多种形式,例如:文本、图片、音频、数据表格等。这些数据的一种形式有时可以转换或 模拟 成另一种形式。例如:

  • 音频可以转化为图像形式,如音谱图。

  • 语音内容可以转写为文字,但这样做可能会丢失某些信息,如声音的响度、语调和停顿等。

  • 图像可以转化为向量,并进一步被转换为一串文本词元(Token)序列。

  • 视频实际上是一系列的图片加上音频。但现在,很多机器学习模型只把视频看作是图片的连续播放。这真的大大限制了它们的能力,因为研究表明,声音在视频中起到的作用与画面一样重要。

  • 其实,只要你为一段文字拍张照,它就能被视为一张图片。

  • 你知道吗,数据表格也可以变成图表,也就是我们常说的图像。

3、其他的数据模态

事实上,所有的数字数据都可以用一系列的 0 和 1(即比特串)或者字节序列来表示 

图形和三维(3D)素材,以及用于表示气味和触觉(如触觉反馈设备)的数据格式。

音频大多只被当作是语音的另一种形式。大多用于把人声转化为文字,或是把文字转化为人声。而非语音的应用,比如创作音乐

图片则可以说是最多用途的输入方式了,它不仅可以代表文字、数据表,还可以代表音频和部分视频

谈到输出时,文本就显得更有力量了。一个只能生成图片的模型其实用途有限,但如果一个模型能输出文本,它就能完成许多任务,如摘要、翻译、逻辑推理和问答等

4、多模态任务

常看到把与视觉和语言相关的任务分为两类:生成 和 视觉语言理解(VLU)

1、生成

对于生成任务,输出可以是单模态(例如只是文本、图像或 3D 图)或多模态结合。现在,单模态的输出已经很普遍,但多模态的输出还在发展中

从文本生成图像

比如:Dall-E、Stable Diffusion 和 Midjourney 。

文本生成

视觉问题回答。比如,你可以随时拍摄任何东西,并提出问题:“我的车怎么不动了,是怎么回事?”、“这道菜怎么做?”或“这个梗是什么意思?”。

帮助搜索特定的图片。想象一个大公司,可能有上百万甚至十亿的图片:产品照片、统计图、设计稿、团队合影、宣传海报等等。AI 能够自动为这些图片生成描述和相关信息,这样你就可以轻松地找到你需要的图片了。

2、视觉语言理解

两种任务类型:分类和基于文本的图像检索(Text-based Image Retrieval, TBIR)。

分类:

OCR(光学字符识别)系统就是来判断某个图像上的字符是不是我们已知的字符,如数字或字母。

与图像分类相似的另一任务是 图像到文本检索:也就是根据给定的图像,从一堆文字中找出最匹配的描述。这种技术在搜索商品图片时特别有用,可以从图片中找出相关的商品评论。

基于文本的图像检索(图像搜索)

Flamingo:多模态大语言模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ai君臣

学会的就要教给人

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值