AnyGPT | 基于离散表示统一多模态理解与生成:把一种新模态当作一门外语 -- NICE27期...

7b23dca2b128982263c01fe389a6cec1.png

主题

基于离散表示统一多模态理解与生成:把一种新模态当作一门外语

时间

2024.9.14 20:00-21:00 周六

入群

7ef892297d4d3493cde0c8379f3e2187.png

5283886aa5dc2855d1849bcffcf50dc1.png论文:AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling
地址:https://arxiv.org/pdf/2402.12226

大纲

  1. 首个统一多模态理解与生成的模型SpeechGPT:使大语言模型具有内生的语音对话能力

  2. 如何获得更适合语言模型建模的语音表示?SpeechTokenizer:语音语义信息和副语言学信息的解耦

  3. 基于离散表示的Any-to-Any多模态模型AnyGPT:基于离散表示统一文本、图像、语音、音乐四种模态

  4. 类GPT-4o模型 SpeechGPT2:如何基于语言模型,对多模态信息进行完整的建模

引言

大语言模型(LLM)通过Decoder Only Transformer的架构和Next Token Prediction任务,在海量文本数据上进行训练,不仅学会了各种NLP任务,并涌现出In Context Learning、Chain-of-Thought等新能力。然而,有人预测互联网上的高质量文本数据将在未来几年内用尽,而现有的LLM仍未达到我们对通用人工智能(AGI)的展望。互联网不仅包含文本,还涵盖了图像、音视频等多种模态的数据,这引出了一个问题:我们如何统一高效地训练这些多模态数据?

AnyGPT提出了一种生成式训练方案,将所有模态的数据转换为统一的离散表示,采用Next Token Prediction任务在LLM上统一训练。从压缩即智能的角度出发:当Tokenizer的质量足够高,LLM的困惑度(PPL)足够低,就有可能将互联网的海量多模态数据压缩在同一个模型中,并涌现出纯文本LLM没有的能力。基于原始的GPT结构和多模态离散化表示,AnyGPT统一了文本、语音、图像、音乐四种模态,并实现任意模态组合的相互转换。

嘉宾介绍

79953630dc2b091f4b2165e9f9edbcd0.png詹俊,复旦大学硕博连读三年级,师从邱锡鹏教授。
他的研究兴趣是大语言模型的跨模态理解与生成,在ACL、EMNLP等国际会议上发表多篇论文,参与多模态模型SpeechGPT和AnyGPT的开发工作。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值