说到人工智能,最近几年它的发展真是突飞猛进啊,尤其是多模态模型的出现,这可是个大新闻。这些模型不再只是处理单一类型的数据,比如文本、图像或者音频,它们能够把这些数据类型结合起来,打造出更加聪明、更加直观的系统。这样的转变让AI能够像人类一样理解和与世界互动,变得更加多功能。
多模态模型在AI领域变得特别重要,因为它们提供了一种新方法,可以同时处理和生成多个数据源的洞察力。从能够响应口头命令和视觉输入的AI助手,到能够整合不同类型的感官数据进行学习的先进系统,多模态AI正在不断突破界限。
在这篇文章里,我们会一起看看值得了解的十佳多模态模型。不管你是开发者、研究人员,还是对AI感兴趣的朋友,这份列表都会让你对这些最重要的模型和它们的应用有一个深入的了解。
多模态模型,就是那些能够同时处理和整合多种数据类型的AI系统。它们不仅能处理文本或图像,还能结合音频、文本和视频等多种输入,从而产生更准确、更有洞察力的结果。
就拿OpenAI的DALL·E来说吧。这个模型能够把图像和文本描述结合起来,根据提示生成新的图像。比如你给它一个文本提示“穿着宇航服的猫”,DALL·E就能生成一个符合这个描述的图像。它能够把从语言(描述)中理解的内容和对物体外观(图像生成)的知识联系起来,这是只有文本的模型做不到的。
多模态模型的理念是多年来不断发展的。最初,AI系统是专门用于不同任务的:比如BERT处理语言,其他的处理图像或音频。但是最近,得益于AI架构的进步,我们能够把这些能力合并到一个系统中。这种转变开辟了新的可能性,允许AI在更复杂的环境工作,其中信息来自多个来源。
多模态模型的真正力量在于它们模仿人类处理信息的方式。想想我们是如何自然地结合我们听到的、看到的和读到的内容来理解一个情况的。多模态模型的目标就是做同样的事情——处理多种输入类型,以做出更明智的决策或生成更好的响应。这使它们在自动驾驶系统、虚拟助手和医疗保健等领域非常有用,因为这些领域需要从多个数据流中获取理解。
比较大型语言模型(LLM)和多模态模型
我们大多数人都听说过大型语言模型(LLM),比如OpenAI的GPT-3和Google的BERT,它们在理解和生成文本方面表现得非常出色。这些LLM彻底改变了我们与AI的互动方式,尤其是在聊天机器人、内容生成和语言翻译等领域。不过,它们的局限性在于只能处理一种输入类型——语言。
而多模态模型则突破了这一限制。它们能够处理多种输入形式,比如将图像和描述结合起来,或者分析音频和视频,从而创造出更丰富、更全面的输出。
举个例子,看看GPT-3和DALL·E的对比:
-
GPT-3是一个LLM,可以根据提示生成文本,比如“写一篇关于AI的文章”,但它的能力就停留在文本生成上——完全是基于文本的。
-
而DALL·E则不同,它能够接受相同的文本提示,并生成相应的视觉表现。这种语言理解和图像生成的结合,使得DALL·E在需要同时处理文本和视觉信息的任务中更加多功能。
接下来,我们将一起探索十佳多模态模型。
OpenAI GPT-4V是OpenAI的GPT-4模型的升级版,增强了多模态能力,能够处理和生成来自文本和图像的信息。GPT-4V中的“V”代表视觉能力,这使得它在需要理解书面语言和视觉数据的任务中成为一个强大的工具。此外,GPT-4V还具备语音能力,可以接收语音输入并将其转换为文本进行进一步处理。同时,它也能用多种类似人类的声音生成对输入提示的口头回应。
主要特点和能力:
-
文本和视觉输入处理以及输出生成。
-
先进的语音能力,允许它处理和生成口头语言。
-
其先进的图像识别功能可以解释复杂的视觉线索并提供详细的答案。
-
熟练处理多模态用例,如图像描述、视觉问题回答和场景描述。
-
支持26种语言的多语言输入。
GPT-4o是OpenAI的最新多模态模型,它能实时处理和生成文本、音频、图像和视频,把文本、视觉和音频的能力都整合到一个模型里了,比以前的模型快多了,效率也高。GPT-4o对音频的反应速度几乎可以说是瞬间的,而且在推理和编码任务上也表现得特别棒,支持好多语言,还能在对话中无缝切换。而且啊,它比GPT-4 Turbo便宜50%,速度快一倍,对开发者来说真的很实用。
OpenAI为了让这个模型更安全,还请了外部的红队,就是独立的承包商,来给他们的模型做风险评估,彻底测试模型输出有害或有偏见信息的可能性。为了让更多人能用上这个模型,OpenAI还发布了一个轻量级的版本GPT-4o-mini,虽然需要的资源更少,但是功能比GPT 3.5 Turbo还要强大。
主要特点和能力:
-
被认为是当前最先进的多模态模型(SOTA)。
-
平均响应时间为320毫秒,响应速度低至232毫秒——与人类在对话中的响应时间相当。
-
支持超过50种语言;能够在对话中无缝切换语言。
再来看看DALL-E 3,这是OpenAI最新的图像生成模型,和ChatGPT集成在一起,让用户可以根据文本提示来创建详细的图像,更好地理解用户的意图。这个模型在前几个版本的DALL-E基础上做了改进,生成的图像更加连贯和有创意。DALL-E 3能生成非常详细、上下文准确的视觉效果,让用户对生成的图像内容和风格有更多的控制。
DALL-E家族的一个创新点是使用离散潜在空间,也就是离散标记来表示数据,这和LLM中单词由标记而不是连续向量表示的方式很像。这让DALL-E 3能学习到更结构化和稳定的生成图像的表示,从而产生更好的输出。
主要特点和能力
-
有效处理复杂提示和详细图像生成
-
标准和高清图像质量选项
-
三种可用的图像尺寸:1024x1024、1792x1024和1024x1792
-
两种不同的图像生成风格:自然和生动;自然更真实(与DALL-E 2产生的图像类似),而生动更“超现实”和电影感。
-
强调伦理和安全,包括防止模型生成攻击性或暴力图像的防护措施:
-
实时提示审核:分析提示中的有害内容并相应提醒用户。
-
提示修改或拒绝:如果检测到攻击性提示,它可以拒绝提示或修改它。
-
生成后过滤:如果图像被确定为潜在的攻击性,DALL-E 3可以停止向用户显示。
-
Gemini是Google的最新多模态AI模型,可以整合包括文本、图像、音频、代码和视频在内的几种模态。传统的多模态模型开发方法包括为每种模态训练单独的网络,然后将它们融合在一起,而Gemini从一开始就被设计为本地多模态,从一开始就在不同类型的数据上进行预训练。
Google开发了三个版本的Gemini:
-
Gemini Nano:适用于移动设备的轻量级模型。
-
Gemini Pro:能够执行广泛的任务,设计用于大规模部署。
-
Gemini Ultra:最大的模型,旨在处理高度复杂、资源密集型的任务。Ultra在32个最广泛使用的评估基准中的30个上超过了当前最先进的结果。
主要特点和能力
-
创造性和表现力能力包括艺术和音乐生成、多模态叙事和语言翻译。
-
能够分析多个数据源以验证输出
-
Gemini Ultra得分90%,是第一个在Massive Multitask Language Understanding (MMLU)基准测试中超越人类专家的模型,该测试测试了57个领域中的世界观知识和问题解决能力。
-
与Google的工具、服务和广泛的知识库集成。
Gemini还以其超长的上下文窗口而出名。Gemini 1.5 Pro这个模型能处理高达1000万个标记,还能处理多模态数据。这能力让人开始想,检索增强生成(RAG),这种用来增强大型语言模型(LLMs)知识的方法,会不会在这种能处理长上下文的模型面前显得过时。
然后是Meta的ImageBind,这个多模态模型有两个特别厉害的创新点。首先,它用一个统一的嵌入空间来解释图像里的感官数据,就像我们人类能同时感知好多东西一样。这种把不同模态“绑定”在一起的能力,让模型能全面理解输入的信息。其次,ImageBind支持六种不同的模态,包括文本、音频、视觉、运动、热和深度数据,这让它在处理复杂的多模态任务时变得特别有用。
主要特点和能力
-
支持六种类型的模态数据:文本、视觉、音频、视觉、3D深度、热和运动(惯性测量单元(IMU))。
-
可以将其他AI模型“升级”以支持来自六种模态的输入,实现基于音频的搜索、跨模态搜索和生成以及多模态算术。
-
擅长跨模态检索和多模态分类。
Anthropic最近把他们的中级模型Sonnet从Claude 3升级到了3.5版本,这让它成为了同类中最顶级的模型。新的Claude 3.5 Sonnet在视觉能力上做了增强,包括了超棒的口头推理能力,还有从不太完美的图像中进行转录的能力。虽然性能提升了不少,但Anthropic还是在安全性和伦理方面下了大功夫。这个模型在训练时不使用用户提交的数据,这样可以保护隐私。而且呢,尽管能力增强了,但它在AI安全等级(ASL)上还是保持在ASL-2级别。
主要特点和能力
-
能够处理文本、图像和代码。
-
编码能力令人印象深刻,在HumanEval编码基准测试中得分92%
-
在Grade School Math Grade (GSM8K)和多语言数学基准测试中分别得分96%和91.6%
-
工件功能将生成的内容放在自己的专用窗口中,以实现动态、更好的组织工作区。
在2023年的研究论文《Vison Instruction Tuning》里,Liu等人介绍了一个叫做 LLaVA(Large Language and Vision Assistant) 的多模态模型。这个模型把开源的大型语言模型Vicuna和视觉编码器结合起来,专门处理图像和语言。LLaVA能够整合视觉数据和语言理解,根据视觉输入来创建丰富的交互式响应。这个模型特别适合做图像描述、视觉问题回答,还有结合文本数据对图像进行推理的任务。LLaVA通过连接语言和视觉,提供了一个更多样化、能感知上下文的AI体验,能够处理视觉和文本数据交互的复杂、现实世界的应用。
LLaVA是微软、哥伦比亚大学和威斯康星大学麦迪逊分校共同研究的成果。这个模型是通过视觉指令调整技术来开发的,这种技术可以通过视觉提示对大型语言模型进行微调,让它能够理解和处理包含视觉信息的提示。这样一来,LLaVA就能理解那些涉及语言和视觉两种模态的指令了。
主要特点和能力
-
擅长图像描述、光学字符识别(OCR)、视觉问题回答和视觉推理。
-
LLaVa-Med是第一个为医疗行业量身定制的多模态模型
-
在为ScienceQA进行微调时,准确率达到92.5%,这是一个包含超过21,000个问题的多样化基准。
新加坡国立大学搞了个NExT-GPT,其被叫做“端到端通用任何到任何MM-LLM系统”。这句话的意思是,NExT-GPT能够处理文本、图像、音频和视频这几种格式的任意组合,不管是作为输入还是输出都行。
这个NExT-GPT是怎么来的呢?它是把Meta的ImageBind作为一个编码器,和LLM(就是Vicuna,和LLaVA用的同一个)结合起来做的。这样,NExT-GPT就能处理六种模态的数据了。然后,LLM会把它的处理结果送到不同的扩散解码器那里,每个解码器负责一种模态。最后,这些解码器的输出会被融合在一起,形成最终的结果。
主要特点和能力
-
能够以文本、图像、音频和视频模态的任何组合接收输入和生成输出。
-
组件包括Vicuna LLM和Meta的ImageBind
-
利用现有的扩散模型进行每种模态生成:Stable Diffusion用于图像,AudioLDM用于音频,Zeroscope用于视频
Inworld AI在这份名单上的其他模型中脱颖而出,作为一个用于创建AI驱动虚拟角色的引擎。除了使非玩家角色(NPCs)更加真实,Inworld还可以为虚拟导师、品牌代表和其他角色赋予个性,以实现更沉浸式和真实的数字体验。
主要特点和能力
-
集成语音、文本和行为输入以实现真实互动。
-
创建具有独特个性和以前互动记忆的自主、情感响应角色。
-
一个全面的模块化AI组件库,或原语,可以组装以适应各种用例。
-
用于增强数字体验的输入原语,包括用于处理语音、视觉和状态感知、识别的原语。
-
输出原语用于简化游戏和应用程序开发,包括文本、语音、形状(2D和3D)和动画资产模块。
-
AI逻辑引擎和处理管道,用于增加游戏复杂性和增强功能。
-
多语言支持(英语、日语、韩语、普通话)包括文本到语音能力、自动语音识别和一系列富有表现力的语音输出;此外,根据目标市场变化的文化参考。
Runway Gen-2挺特别的,它是这些模型里唯一一个专门搞视频生成的多模态模型。用这个模型,用户可以直接用文本提示、上传图片,或者拿现成的视频当参考,来制作新的视频内容。更牛的是,它还有像故事板这样的强大功能,能把概念艺术直接转换成动画,还有个风格化工具,能把你想要的风格应用到视频的每一帧上。这给了内容创作者更大的能力,让他们能更快地把创意变成现实。
主要特点和能力
-
文本到视频、图像到视频和视频到视频提示功能
-
通过工具编辑视频,如Camera Control,允许您控制镜头的方向和强度,以及Multi-Motion Brush,让您可以对场景中的对象和区域应用特定的运动和方向
-
提供iOS应用程序,用于智能手机内容生成
以下表格提供了十佳多模态模型的概览。
模型 | 供应商/创造者 | 主要能力 |
GPT-4V | OpenAI | 文本和图像处理;理解语音命令并可以输出口头输出 |
GPT-4o | OpenAI | 文本、图像、音频和视频处理 |
DALL-E 3 | OpenAI | 文本和图像处理;仅图像输出 |
Gemini | 文本、图像、音频、代码和视频处理 | |
ImageBind | Meta | 支持六种类型的模态数据:文本、视觉、音频、视觉、3D深度、热和运动 |
Claude 3.5 Sonnet | Anthropic | 能够处理文本、图像和代码 |
LLaVA | 微软、哥伦比亚大学、威斯康星大学麦迪逊分校 | 文本和图像处理;LLaVA-med为医疗行业微调 |
NExT-GPT | 新加坡国立大学 | 能够以文本、图像、音频和视频模态的任何组合接收输入和生成输出。 |
Inworld AI | Inworld | 用于创建AI驱动虚拟角色的引擎 |
Runway Gen-2 | Runway | 文本到视频、图像到视频和视频到视频提示功能 |