AnyGPT | 基于离散表示统一多模态理解与生成：把一种新模态当作一门外语 -- NICE27期...

zenRRan

于 2024-09-11 22:50:00 发布

阅读量205

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247530186&idx=2&sn=4076ce39610f66d44afec4115f0a4413&chksm=ea4e167fc4fba932ad597a8675020d19a59956a1ab4eaa53e15859e472dbd36a1a2b94791da6&scene=126&sessionid=0

版权

主题

基于离散表示统一多模态理解与生成：把一种新模态当作一门外语

时间

2024.9.14 20:00-21:00 周六

入群

论文：AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling
地址：https://arxiv.org/pdf/2402.12226

大纲

首个统一多模态理解与生成的模型SpeechGPT：使大语言模型具有内生的语音对话能力
如何获得更适合语言模型建模的语音表示？SpeechTokenizer：语音语义信息和副语言学信息的解耦
基于离散表示的Any-to-Any多模态模型AnyGPT：基于离散表示统一文本、图像、语音、音乐四种模态
类GPT-4o模型 SpeechGPT2：如何基于语言模型，对多模态信息进行完整的建模

引言

大语言模型（LLM）通过Decoder Only Transformer的架构和Next Token Prediction任务，在海量文本数据上进行训练，不仅学会了各种NLP任务，并涌现出In Context Learning、Chain-of-Thought等新能力。然而，有人预测互联网上的高质量文本数据将在未来几年内用尽，而现有的LLM仍未达到我们对通用人工智能（AGI）的展望。互联网不仅包含文本，还涵盖了图像、音视频等多种模态的数据，这引出了一个问题：我们如何统一高效地训练这些多模态数据？

AnyGPT提出了一种生成式训练方案，将所有模态的数据转换为统一的离散表示，采用Next Token Prediction任务在LLM上统一训练。从压缩即智能的角度出发：当Tokenizer的质量足够高，LLM的困惑度（PPL）足够低，就有可能将互联网的海量多模态数据压缩在同一个模型中，并涌现出纯文本LLM没有的能力。基于原始的GPT结构和多模态离散化表示，AnyGPT统一了文本、语音、图像、音乐四种模态，并实现任意模态组合的相互转换。

嘉宾介绍

詹俊，复旦大学硕博连读三年级，师从邱锡鹏教授。
他的研究兴趣是大语言模型的跨模态理解与生成，在ACL、EMNLP等国际会议上发表多篇论文，参与多模态模型SpeechGPT和AnyGPT的开发工作。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。