本文是关于NIPS2023论文《Language Is Not All You Need: Aligning Perception with Language Models》的简要介绍。这项工作提出了一个多模态大语言模型框架:KOSMOS-1,在语言理解、生成、无OCR的自然语言处理、感知-语言任务和视觉任务等方面的出色表现。
本文写于2024年4月9日。
有关本专栏的更多内容,请参考大语言模型文献调研专栏目录
文章目录
1. 论文基本信息
1.1 资料
论文题目:Language Is Not All You Need: Aligning Perception with Language Models
代码链接:https://github.com/microsoft/unilm
论文引用:
@article{huang2024language,
title={Language is not all you need: Aligning perception with language models},
author={Huang, Shaohan and Dong, Li and Wang, Wenhui and Hao, Yaru and Singhal, Saksham and Ma, Shuming and Lv, Tengchao and Cui, Lei and Mohammed, Owais Khan and Patra, Barun and others},
journal={Advances in Neural Information Processing Systems},
volume={36},
year={2024}
}
1.2 动机
大语言模型(LLMs)已成功地充当各种自然语言任务的通用接口,只需将输入和输出转换为文本格式即可适应不同任务,如文档概括。尽管在自然语言处理领域表现出色,但LLMs原生处理多模态数据仍然有挑战,如图像和音频等。KOSMOS-1就是为了让大语言模型原生的感知和兼容多模态数据而设计的。作者建立Raven智商测试类似的基准测试,评估MLLMs的非语言推理能力。相较于LLMs,MLLMs表现出更好的常识推理性能,跨模态转移有助于知识获取。其要点为:
- 特性:KOSMOS-1是一个MLLM,具备感知一般模态、遵循指示(零样本学习)、在上下文中学习(少样本学习)的能力。
- 模型训练和架构:采用METALM方法从头开始训练KOSMOS-1模型,基于Transformer的语言模型作为通用接口,接入感知模块。
- 多模态训练数据:在网络规模的多模态语料库上训练模型,包括文本数据、交错的图像和文本,及图像标题对。
- 应用范围:KOSMOS-1模型原生支持语言、感知-语言和视觉任务,广泛涵盖感知密集型任务如视觉对话、解释、问答、图像字幕等。
1.3 多模态大语言模型必要知识
多模态感知的必要性。对于LLMs来说,感知多模态输入的能力至关重要:
- 多模态感知使得LLMs能够获取超越文本描述的常识知识。
- 将感知与LLMs对齐为新任务(如机器人技术和文档智能)打开了大门。
- 感知能力统一了各种API,因为图形用户界面是最自然和统一的交互方式。
一个简单的例子是,多模态大语言模型(MLLMs)可以直接阅读屏幕或从收据中提取数字。KOSMOS-1是在网络规模的多模态语料库上训练的,确保模型稳健性。除了使用大规模文本语料库外,作者还从网络中挖掘高质量的图像标题配对以及任意交错的图像和文本文档。
为什么语言模型作为通用接口。遵循METALM提出的理论,作者将世界、行动和多模态感知与语言模型对齐,得益于语言模型的以下特性:
- 开放性:开放式输出空间,允许我们能够将各种任务预测统一为文本。