Freeze-Omni低延迟语音对话！LLM助力语音多模态大模型！-CSDN博客

本文链接：https://blog.csdn.net/m0_59164520/article/details/143723814

数源AI 最新论文解读系列

论文名：Freeze-Omni: A Smart and Low LatencySpeech-to-speech Dialogue Model with Frozen LLM

论文链接：https://arxiv.org/pdf/2411.00774.pdf

项目地址：https://freeze-omni.github.io/

引言

近年来，大型语言模型的发展速度极快。OpenAI的GPT系列等一系列大型语言模型展示了非凡的能力。由于语音交互是人类与计算机互动最自然的形式之一，结合语音输入和输出与LLM可以为用户带来非凡的体验。传统方法是使用ASR+LLM+ TTS的级联方法来实现与LLM的语音交互。然而，这种方法通常会导致相对较高的工程复杂性和相当大的交互延迟。尽管如此，GPT-4o改变了这一状况，它提供了一个端到端的口语交互模式，显著改善了用户体验，并引发了研究人员对多模态LLM用于语音对语音交互的研究热潮。

简介

在这个背景下，研究人员提出了许多可以实现语音对语音对话的多模态大型语言模型（LLM）。在本文中，我们提出了一种名为Freeze-Omni的LLM架构。我们的主要贡献是语音输入和输出模态可以与LLM连接，同时在整个训练过程中保持LLM冻结。我们设计了3个阶段的训练策略，用于建模语音输入和输出，使Freeze-Omni能够使用文本-语音配对数据（如ASR和TTS数据）以及仅60,000轮多轮文本问答数据，在8个GPU上获得语音对语音对话能力。此外，我们可以有效地确保Freeze-Omni在语音模态中的智能与其骨干LLM的文本模态中的智能处于同一水平，而口语响应的端到端延迟达到了低水平。此外，我们还设计了一种通过多任务训练实现双工对话能力的方法，使Freeze-Omni在与用户之间的对话能力上具有更自然的风格。Freeze-Omni主要提供了研究人员在冻结的LLM条件下进行多模态LLM的可能性，避免了由于数据量少和训练资源不足导致的LLM灾难性遗忘所引起的一系列影响。

方法与模型

Freeze-Omni是一个语音到语音对话模型，其架构如图1所示，展示了其作为基于“冻结”文本模态LLM构建的“智能”的特点。这使得它能够保持LLM骨干的原始智能，不受细调过程引起的遗忘问题影响，以集成语音模态。具体来说，Freeze-Omni包含一个支持流式语音输入的语音编码器和一个生成流式输出语音的语音解码器。在训练过程中，Freeze-Omni首先实现语音输入到文本输出的对应，然后是文本输入到语音输出的对应。最后通过连接这两个组件与LLM，获得了语音输入到语音输出的能力。本节将详细介绍Freeze-Omni的架构、训练策略和双工对话设计。

1、语音输入建模

块状流式语音编码器

为了使Freeze-Omni能够支持语音输入并实现对输入语音的快速低延迟响应，它利用块状流式语音编码器将输入语音特征转换为高维表示。然后，适配器模块将高维表示映射到骨干LLM的嵌入空间。这里的语音编码器模块由几个下采样卷积层和几个Transformer[22]块组成，而适配器仅包含几个下采样卷积层。使用下采样的原因是为了降低语音特征的帧率，增加LLM在预填充阶段的速度，并减少延迟。

训练策略

图中所示的3阶段训练策略用于语音编码器，使Freeze-Omni能够在保持LLM冻结的同时获取理解流式输入语音的能力。

（1）第一阶段与常见语音识别模型的训练过程相同。输入是语音特征，标签是与该语音相对应的转录，使用CTC作为损失函数。

（2）第二阶段，我们使用在第一阶段训练的语音编码器作为初始化参数，并通过适配器将其与LLM连接起来。LLM的输出仍然使用与输入语音相对应的转录作为标签。在输入部分添加了一些可训练的特殊标记，以指导LLM在这一阶段完成训练过程。在这一阶段，除了冻结的LLM外，其他网络的参数都是可训练的。

（3）最后阶段，我们首先构建一个多轮问题的数据集，并使用训练中依赖的LLM骨干生成多轮答案。以这种方式构建的数据集将与LLM骨干完全兼容。随后，我们使用多说话者TTS系统为问题部分生成语音模态的数据，并在多轮中的每个问题之前添加可训练的提示嵌入，以指导LLM实现从语音输入到文本输出的能力。在这一阶段，第二阶段的可训练特殊标记将被丢弃，只有提示嵌入部分是可训练的，它们对每个问题使用相同的参数，语音编码器被冻结以保持从第二阶段获得的声学鲁棒性，LLM也被冻结以确保其智能不受影响。

2、语音输出建模

架构

受VALL-E的启发，Freeze-Omni使用基于令牌的语音解码器，该解码器包含NAR预填充和AR生成阶段，以实现语音输出能力。语音解码器主要由以下部分组成：

NAR解码器、AR解码器和编解码模型解码器。NAR解码器和AR解码器都建立在Transformer块之上。NAR解码器用于从LLM的输出中建模语义特征，然后AR解码器根据NAR解码器的输出生成语音令牌。最后，编解码模型解码器将语音令牌转换为语音流。

训练策略

对于语音输出建模，我们仍然使用如图3所示的3阶段训练方法，使Freeze-Omni能够在保持LLM冻结的同时，获得从LLM输出生成语音的能力。

（1）我们首先使用仅有的语音数据训练一个基于单码本的编解码模型。由于单个码本足以从有限数量发言者的语音信号中提取语音标记，因此在这里使用单个码本可以尽可能减少系统的复杂性和延迟。

（2）第二阶段中，我们首先构建大量文本-语音配对数据，并通过骨干LLM的tokenizer将文本转换为文本标记。然后，我们将文本标记通过LLM的嵌入层转换为嵌入向量作为语义特征，并将其发送到NAR语音解码器。NAR语音解码器以教师强制的形式预测输出语音标记。这里的标签是使用在第一阶段训练的编解码模型提取的。NAR和AR语音解码器使用相同的参数，且LLM的嵌入层被冻结。

（3）在最后阶段，我们使用输入第3阶段的相同多轮问题和答案数据集，并使用骨干LLM生成的文本标记和隐藏状态序列。

3、双重对话设计

在上述训练过程之后，Freeze-Omni具有从语音输入到语音输出的转换能力。然而，为了更好地近似自然的语音对语音对话形式，我们使用了多任务块级状态预测。

我们首先使用声学VAD1模块来检测流式语音的起点。当VAD被触发时，语音流将被逐块发送到Freeze-Omni块中，并且在LLM的最后一层之后添加一个额外的分类层来预测不同的状态。这里定义了三个状态，状态0表示当前LLM可以继续接收语音，状态1或2表示当前块是语音的结束。状态1意味着LLM可以中断用户并执行生成阶段，状态2意味着不需要中断用户。这两种状态都会停止向Freeze-Omni发送语音流并重置VAD模块。这部分训练过程使用多任务方法优化状态分类层和LLM的交叉熵损失。需要注意的是，这里的状态标签仅在每个块的最后一帧有效。

此外，我们采用了“模型作为服务器”的策略来实现语音对语音对话系统。首先，我们同时启动几个模型并将其视为服务器。然后，当用户的VAD被触发时，语音将以块的形式发送到服务器，服务器将负责安排哪个空闲模型应该响应当前块。由于我们在推理过程中分离了语音编码器和LLM的所有kv缓存和CNN缓存，服务器只需要保存每个用户的推理缓存。这样，服务器中的任何模型都可以响应任何用户的任何块，无需指定使用哪个模型作为监控器或生成器。

实验与结果

实验细节

数据集

我们仅从moss-003-sft-data {}^{2}2中随机选择了60,000多轮问答数据，并使用骨干LLM生成新的答案来替换其原始答案。我们使用零样本TTS系统将其文本合成成语音。对于Freeze-Omni的语音输入建模，我们在第一阶段和第二阶段使用了包括中文和英文在内的110,000小时的内部语音-文本配对ASR数据。在第三阶段，我们使用了上述多轮问答数据的文本输入和语音输出配对。对于Freeze-Omni的语音输出建模，我们使用了第一阶段和第二阶段由零样本TTS系统生成的约3,000小时文本-语音配对数据。在第三阶段，我们使用了上述多轮问答数据的文本输入和语音输出配对。

LLM后端为了本文的实验，我们使用了Qwen2-7B-Instruct3作为我们的骨干LLM。作为一个出色的7B级公共LLM，它对我们验证我们的方法很有益。此外，实际上Freeze-Omni可以使用任何LLM作为骨干，因为它的训练过程不会更新LLM的任何参数。

模型配置

语音编码器我们使用了多层卷积，4倍下采样和24层的变换器，隐藏大小为1024。适配器由一个具有两倍下采样的多卷积层组成。语音编码器的参数数量大约为350M，输出帧率为12.5Hz。语音编码器的输入是带有25ms窗口大小和10ms移位的梅尔滤波器组特征。

语音解码器我们使用了TiCodec4[20]作为编解码模型，并定制了配置，使得码本大小为1024，使用单一码本，语音标记的频率为40Hz。对于语音解码器部分，NAR（前缀）语音解码器和AR语音解码器都是4层的Llama解码器层，隐藏大小为896。语音解码器的参数数量大约为120M，编解码模型的输出采样率为24000Hz。

定量实验结果

因为我们在本文中研究了Freeze-Omni在单说话者情况下的语音输出性能，我们随机选择了1,000个文本标记和LLM输出的隐藏状态作为语音解码器的输入，并将合成语音的ASR准确性与标签文本进行了比较。如表2所示，模型在语音输出建模的第二阶段（无前缀的语音解码器）和第三阶段（语音解码器）在不同AR解码参数top-k下的性能分别呈现，并使用paraformer-zh5[12]评估CER(%)。从结果来看，引入LLM的隐藏状态作为NAR前缀语音解码器的输入后，语音解码器可以与LLM更加完全对齐，减少不良案例的发生并获得更低的CER(%)。此外，增加top-k显示了在微调前缀时语音解码器的更好鲁棒性

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述