Hello!欢迎各位新老朋友来看小弟博客,祝大家事业顺利,财源广进!!
主题:多模态大模型
是什么
- 在机器学习领域,”模态”被用来描述不同类型的数据形式,如文本、图像、视频、音频等。
- 最开始以 ChatGPT 为代表的大语言模型,都是只支持文本这个单一模态。
- 可以同时处理文本、图像、音频等多种形式的数据输入输出的大模型,就是多模态大模型。
特点:端到端
一个模型能同时理解和处理多种模态的数据输入。
1.非端到端的例子:
- 在 ChatGPT 上,可以调用 DALL-E 生成图片,但实际流程是 prompt → GPT4模型 → 生成细节提示词→DALL-E模型 → 生成高质量细节图像,只是一个能力串联,并不是一个多模态大模型。
- 在豆包或其他一些LLM APP上,支持语音输入→文字和语音输出,实际流程是语音→ASR模型转文字→LLM→文字→tts模型转语音,并不是端到端 语音→LLM→语音。
2.端到端的例子:
- GPT4o 的实时语音对话,流程是 语音→ GPT4o模型→语音。延迟低、语气/音色/停顿/语义都能综合理解到。
- claude3.5 支持按要求识别图片,流程是 图片+prompt → claude模型→文本。能很好结合 prompt按要求输出对图片的识别。
3.端到端的好处:
- 模型能直接从原始的数据中学习不同模态之间的关联和映射关系,发现隐藏在数据中的复杂跨模态模式,可以 scale up达到涌现,没有中间折损,可以做到低延时。
原理:基于大语言模型
1.多模态大模型以大语言模型为基础模型,复用已预训练好的模型理解能力,在上面增加其他模态的能力,对齐多个模态的特征让原大语言模型能理解。GPT4o 就是在 GPT4 基础上增加音频/图片的特征能力,它在文本上的理解能力还是跟 GPT4 差不多。
2.模型通用