Official Repository for paper "AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling"
论文“AnyGPT:具有离散序列建模的统一多模态LLM”的官方存储库
AnyGPT,这是一种任意到任意的多模态语言模型,它利用离散表示来统一处理各种模态,包括语音、文本、图像和音乐。基本模型将四种模式对齐,允许在不同模式和文本之间进行多模式转换。此外,我们基于各种生成模型构建了anydirective数据集,其中包含任意模态相互转换的指令。在这个数据集上训练,我们的聊天模型可以参与自由的多模态对话,其中可以随意插入多模态数据。
AnyGPT提出了一种生成式训练方案,该方案将所有模态数据转换为统一的离散表示,使用下一个令牌预测任务在大型语言模型(LLM)上进行统一训练。从“压缩即智能”的角度来看:当Tokenizer的质量足够高,并且LLM的困惑度(PPL)足够低时,就有可能将互联网上大量的多模态数据压缩到同一个模型中,从而出现纯基于文本的LLM所不具备的能力。演示显示在项目页面。