LLM-Speech
文章平均质量分 94
LLM-Speech
nopSled
一周一更
展开
-
Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM翻译
大语言模型的快速发展带来了许多新的智能应用,尤其是GPT-4o中出色的多模态人机交互给用户带来了令人印象深刻的体验。在此背景下,研究人员近期提出了许多可以实现语音对话的多模态LLM。在本文中,我们提出了一种语音文本多模态LLM架构,称为。我们的主要贡献是将语音输入和输出模态连接到LLM,同时在整个训练过程中保持LLM冻结。翻译 2024-11-12 21:37:48 · 1 阅读 · 0 评论 -
Moshi: a speech-text foundation model for real-time dialogue翻译
语音为早期的对话系统(从 Alexa 到 Siri 和 Google Assistant)提供了便捷的接口。在这种情况下,用户说出的“唤醒词”通常会触发自动语音识别 (ASR) 系统,该系统会转录后续用户的请求。然后,自然语言理解 (NLU) 管道将此query转换为结构化格式,用于通过自然语言生成 (NLG) 生成文本答案。最终,文本转语音 (TTS) 系统将答案告诉用户。虽然此过程可以处理短暂、受限的交互(例如触发操作或检索事实),但大型语言模型 (LLM) 的兴起要求将语音界面扩展到多轮、开放式对话。翻译 2024-09-26 04:39:38 · 212 阅读 · 0 评论 -
Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming翻译
语言模型的最近取得了重大进展。GPT-4o 作为一个新的里程碑,实现了与人类的实时对话,表现出接近人类的自然流利程度。这种人机交互需要模型能够直接使用音频模态进行推理并以流式方式生成输出。然而,这仍然超出了当前学术模型的能力范围,因为它们通常依赖于额外的 TTS 系统进行语音合成,从而导致不良的延迟。本文介绍了一种基于音频的端到端对话模型,它能够进行实时语音交互。为了实现这种能力,我们提出了一种文本指导的语音生成方法,以及推理过程中的批量并行策略,以进一步提高性能。翻译 2024-09-06 03:14:01 · 316 阅读 · 0 评论 -
SpeechAlign: Aligning Speech Generation to Human Preferences翻译
语音语言模型在生成逼真语音方面取得了显著进展,其中神经编解码器语言模型脱颖而出。然而,人们往往忽视了整合人类反馈以使语音输出与人类偏好保持一致。本文首先分析了编解码器语言模型中的分布差距,强调了它如何导致训练和推理阶段之间的差异,从而对性能产生负面影响,以此来解决这一差距。然后,我们探索利用从人类反馈中学习来弥合分布差距。我们引入了 SpeechAlign,这是一种迭代自我改进策略,可将语音语言模型与人类偏好保持一致。翻译 2024-08-29 04:26:55 · 74 阅读 · 0 评论 -
WavLLM: Towards Robust and Adaptive Speech Large Language Model翻译
大语言模型 (LLM) 在过去几年中取得了飞速发展,在众多自然语言处理 (NLP) 任务中达到甚至超过人类的熟练程度。这些令人印象深刻的能力归功于对大量训练数据集和大量模型参数的大规模训练,以及先进的训练方法,如指令遵循协议和从人类反馈中强化学习 (RLHF) 算法。随着大语言模型取得重大突破,人们的注意力越来越多地转向多模态大型语言模型 (MLLM) 的功能和进步,这些模型具有聆听、说话、查看和创建内容的能力。翻译 2024-08-14 22:08:18 · 135 阅读 · 0 评论 -
SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation翻译
以 ChatGPT 和 LLaMA 为代表的大型语言模型 (LLM) 凭借大规模参数展现出卓越的能力。缩放定律表明,模型大小和数据量在提高性能方面起着关键作用。对于语音生成模型,最近人们努力将训练数据扩展到近 10 万小时的自然语音,这展示了其在上下文语音生成方面的卓越能力,特别是在泛化到未见过的说话人方面。从信息建模的角度来看,当前的大规模语音生成方法可分为两种类型:1)集成生成,涉及同时建模语义和声学信息,而无需在语音生成过程中进行解耦。翻译 2024-08-09 04:38:56 · 106 阅读 · 0 评论 -
SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities翻译
大型语言模型在各种自然语言处理任务上表现惊人。同时,多模态大型语言模型(如 GPT-4、PALM-E 和 LLaVA)探索了 LLM 理解多模态信息的能力。然而,当前的 LLM 与通用人工智能 (AGI) 之间存在显著差距。首先,大多数当前的 LLM 只能感知和理解多模态内容,而不能自发生成多模态内容。其次,图像和语音等连续信号无法直接适应用于接收离散 token 的 LLM。翻译 2024-08-03 20:04:47 · 208 阅读 · 0 评论
分享