本文是LLM系列文章,针对《Generative Multimodal Models are In-Context Learners》的翻译。
摘要
人类在上下文中轻松解决多模态任务的能力(即,只需几次演示或简单指令),是当前多模态系统在很大程度上难以模仿的。在这项工作中,我们证明了大型多模态模型的任务不可知上下文学习能力可以通过有效的扩展得到显著增强。我们介绍了Emu2,这是一个具有370亿个参数的生成多模态模型,在具有统一自回归目标的大规模多模态序列上训练。Emu2表现出强大的多模态上下文学习能力,甚至可以解决需要动态推理的任务,如视觉提示和基于对象的生成。该模型创下了在小样本环境下进行多模态理解任务的新纪录。当指令被调整为遵循特定指令时,Emu2在具有挑战性的任务上进一步达到了最先进的水平,如大型多模态模型的问答基准和开放式主题驱动的生成。这些成果表明,Emu2可以作为一个基础模型和通用接口,用于各种多模态任务。代码和模型是公开的,以促进未来的研究。