摘要
大型语言模型 (LLM) 表现出强大的上下文理解能力和显著的多任务性能。 因此,研究人员一直在寻求将 LLM 整合到更广泛的语音语言理解 (SLU) 领域。 与传统方法不同,传统方法是将 LLM 级联以处理自动语音识别 (ASR) 生成的文本,而新方法则集中于设计围绕音频特征提取 - 多模态信息融合 - LLM 推理(语音 LLM) 的架构。 此方法可以实现更丰富的音频特征提取,同时促进音频和文本模态的端到端融合,从而实现对音频数据的更深入理解和推理。 本文阐述了语音 LLM 的发展,对系统架构和训练策略进行了深入分析。 通过广泛的研究和一系列有针对性的实验,本文评估了语音 LLM 在丰富音频转录方面的进步及其在 SLU 领域进行跨任务集成的潜力。 此外,它还指出了通过实验发现的关键挑战,例如在某些条件下LLM 的休眠。 本文进一步探讨了语音 LLM 的训练策略,根据这些发现提出了潜在的解决方案,并为该领域的未来研究以及 LLM 在多模态环境中的应用提供了宝贵的见解和参考。
1、引言
大型语言模型在自然语言处理领域取得了特别显著的进步,特别是在上下文理解和多模态技术方面。 像 GPT-4 [1] 这样的模型在大量语料库上进行训练,现在能够以极高的精度处理复杂的上下文。 这些模型凭借其庞大的参数,在解析上下文相关的句子和维护多个对话回合的一致性方面表现出色,这对对话系统、自动摘要和机器翻译等任务至关重要。 通过利用大量的上下文信息,这些模型以前所未有的熟练程度来管理长文本处理,并在上下文推理方面表现出色。
除了在基于文本的任务中的成功之外,大型语言模型在多模态任务 [2] 中也取得了非凡的成功,特别是在集成和处理来自视觉、语音和文本等不同模态的输入方面。 它们能够语义地链接这些不同类型的数据,从而在视觉问答和图像生成等领域取得了重大突破,例如 CLIP [3] 和 DALL-E [4] 等模型。 这种能力不仅通过有效融合不同模态的信息来提高视觉任务的性能,而且还展示了这些模型扩展到其他模态并改进其他模态的潜力。 这些模型管理复杂的多模态信息处理的方式突出了它们的适应性,并为多模态理解和整合方面的进一步创新奠定了基础。
典型的 Spoken Language Understanding (SLU) 涉及解释口语以提取意义、意图和相关信息,超越简单的转录 [5, 6]。 为了更全面、更连贯地展示语音 LLM 的性能,本文还将其范围扩展到包括基本的语音到文本任务,例如自动语音识别 (ASR)。 相关工作在各个领域都取得了显著的成果,包括语音助手、自动转录和实时语音翻译。 现代系统擅长处理多种口音和语言,从而提高工作流程(如医疗转录和客户服务自动化)的效率和准确性。 然而,仍然存在挑战,特别是在 长篇语音识别 和 热词/关键词识别 方面。 长篇语音识别在长时间内保持上下文并处理说话人差异方面存在困难,这往往会导致实时应用中的准确性下降和延迟问题。 热词检测(对于唤醒词识别至关重要)在嘈杂环境中以及平衡敏感性和特异性方面存在困难,尤其是在热词与其他短语在语境上相似的情况下。 将热词识别集成到连续语音处理中,而不破坏流程或增加计算开销,仍然是一个持续的挑战。
本文的主要贡献可以概括为以下三个方面:
- 首次深入全面地分析了 语音 LLM 在 SLU 领域中的应用。 我们将深入探讨语音 LLM 的发展,解释模型架构范式,并与 SLU 任务中的传统语音模型进行比较分析。
- 首次对语音 LLM 架构中语音和文本模态对齐的训练方法进行比较分析,重点关注 强化学习 策略(如 DPO 和 PPO)的潜在发展。
- 我们是第一个提出并深入分析 LLM 休眠 现象(LLM 应用于语音领域时),并提供其原因的可能结论。
2、语音大语言模型的最新进展
2.1、语音大语言模型架构的演变
考虑到大型语言模型 (LLM) 在上下文理解、推理和多模态信息处理方面的卓越性能,以及语音语言理解 (SLU) 领域中尚未解决的挑战,例如长篇语音理解和热词识别,研究人员已经开始探索将 LLM 整合到 SLU 中。
2.1.1、Transformer 整合到传统语音模型中
将 LLM 整合到 SLU 的一个关键里程碑是 Transformer 架构的引入。 Dong 等人 (2018) 首次将 Transformer 应用于语音识别,提出了一个基于 Transformer 的端到端语音识别系统 [7]。 这一尝试为后续研究奠定了基础。 随后,在 2020 年,Gulati 等人 (2020) 通过引入 Conformer 架构进一步发展了这种方法,该架构将卷积神经网络 (CNN) 的局部特征提取能力与 Transformer 相结合,使 Transformer 在处理语音信号方面更加稳健 [8]。
2021 年,Hsu 等人提出了 HuBERT (Hidden-Unit BERT,它在利用 LLM 处理音频特征方面取得了重大突破 [9]。 HuBERT 在大量未标注的语音数据上采用自监督学习,以学习有效的隐藏单元表示。 2022 年,Radford 等人推出了 Whisper 模型,该模型进一步将多语言和多任务功能集成到单个模型中,展示了跨不同语言和任务的出色可迁移性 [3]。
研究人员对仅仅使用语音作为输入和文本作为输出感到不满意,开始探索端到端语音-文本多模态输入和输出。 2022 年,Junyi Ao 等人推出了 SpeechT5,率先研究了用于各种口语处理任务的统一编码器-解码器框架 [10]。
2.1.2、大型语言模型直接音频处理

其特点是大型语言模型直接进行音频处理。 当前阶段包括两个分支:离散序列建模(例如,VALL-E、SpeechGPT)和连续序列建模(例如,Pengi、SALMONN)。
除了将像 Transformer 这样的 LLM 架构直接整合到语音识别任务中,另一种重要的整合方法是使用 LLM 来处理传统语音识别工具提取的音频特征。 这种方法利用 LLM 的强大语境理解和推理能力,提高了语音识别的准确性和鲁棒性,以及更深入的语音理解,并且已逐渐发展成为大语言模型在语音识别领域应用的主要趋势。换句话说,这指的是 Speech LLM 的更狭义定义。
将语音和文本模态对齐的最早尝试可以追溯到 2020 年,这些尝试通过将从语音中提取的特征传递给下游语言模型来实现。 Qi Liu 等人是第一个探索这种方法的人,他们将语音特征信息的映射与语音特征提取过程分离成两个独立的模块,并将 LSTM 模型引入到将语音特征信息映射到文本的过程 [11]。 这种方法不同于传统的基于 CTC 的端到端系统,它将声学特征到文本的映射隔离为一个独立的单元。 这种分离为随后将大型语言模型整合到该领域奠定了基础,使 LLM 更有效地嵌入语音识别任务成为可能。
目前,语音 LLM 主要可以分为两类。
第一个是 离散序列建模,以将音频特征信息压缩为离散符元,然后将这些符元传递给 LLM 进行处理的方法为代表。 2023 年初,微软发布了 Vall-E,这是一项利用 LLM 处理音频特征的典型研究。 Vall-E 引入了 Transformer 架构,将音频特征与语言模型的功能相结合,实现了更自然的文本到语音生成 [12]。 随后,SpeechGPT 的出现标志着语音模型和 LLM 的深度融合,它不仅能够处理音频,还能够通过自然语言进行交互,为语音识别领域带来了新的交互范式 [13]。 2023 年年中,谷歌推出了 AudioPaLM,它进一步扩展了语音识别能力,使其能够进行多模态处理,从而提高了多模态任务的性能 [14]。
第二个是 连续序列建模,其中音频特征信息被投影到连续的输入嵌入向量中,然后传递给 LLM 进行处理。 2023 年,Deshmukh 等人推出了 Pengi,该模型将语音模态信息投影到大型模型的文本空间中,而不会改变 LLM 中的任何参数,例如嵌入向量空间 [15]。 随后,开始使用连续音频特征信息将更丰富的表示传达给 LLM [16, 17, 18],从而在 SLU 领域的各种任务中取得了显著的性能提升。 在 2024 年,Ma 等人进一步提出了 SLAM-LLM,它涉及添加一个线性投影器,允许仅通过训练投影层来完成任务 [19]。
一旦研究人员在识别准确性方面取得了比传统语音识别技术显著的改进,他们就开始探索并试图解决这些传统方法固有的问题。 在 2024 年,Fathullah 等人引入了 Conformer 机制,在处理长语音序列方面取得了进展 [20]。 同年,SpeechX 在多语言、多任务语音识别方面取得了突破,实现了语言之间的无缝切换,并支持长语音理解和热词识别等挑战 [21]。
2.2、语音 LLM 在关键任务和挑战中的进展
随着大型语言模型 (LLM) 在语音处理领域的不断发展和应用,语音 LLM 范式在各种任务中都表现出了显著的成功,通常在许多领域都超过了传统模型的性能。 我们主要关注语音理解领域内的传统关键任务,包括 自动语音识别 (ASR)、语音翻译 和 说话人识别 等。 更详细的比较和分析将在部分6中进行。 同时,我们也关注语音 LLM 在挑战性任务中的探索和突破,例如 长语音识别 以及 关键词和热词检测。 当然,大型语言模型强大的上下文推理能力为更复杂的系统任务提供了另一种解决方案。 在这方面,我们还探索了 实时多模态交互 等领域。 本节考察了语音 LLM 在这些标准任务上的性能以及它们如何解决该领域长期存在的挑战。
2.2.1、语音语言理解中传统任务的改进
语音理解领域的传统任务包括自动语音识别、说话人识别和语音翻译。 语音 LLM 范式在所有这些领域都表现出了令人印象深刻的性能。 在这里,我们将首先以 ASR 为例,简要考察和了解语音 LLM 在该领域取得的进展。
自动语音识别 (ASR) 是一种使机器能够将口语转换为文本的技术。 现代 ASR 系统在 LLM 的增强下,旨在与前代系统相比,实现更高的准确性、更好的抗噪声能力以及对不同口音和方言的更大适应性。 该任务是语音控制应用程序、交互式语音应答系统和自动转录服务的基石。 评估语音识别系统的一个关键指标是词错误率 (WER)。
传统模型,例如基于 LSTM 或 GRU 的模型,在各种基准数据集上表现出竞争力 [22]。 然而,LLM 的引入显著提高了这些结果 [23, 24]。
此外,在多语言语音识别中,LLM 在多种语言中表现出优异的性能。 在多语言 LibriSpeech (MLS) 数据集上,基于 Conformer 的模型在多种语言中实现了 WER 的显著降低 [25]。 值得注意的是,在法语和德语等资源匮乏的语言中,已经报告了巨大的 WER 降低 [23]。
语音翻译是将一种语言的口语转换为另一种语言的书面或口语文本的过程。 它通常涉及两个关键步骤 [26]:自动语音识别 (ASR),将口语转录为文本,以及机器翻译 (MT),将转录的文本翻译成目标语言。 该技术用于实时应用,例如多语言会议、会议和直播,实现无缝的跨语言交流。 随着大型语言模型在机器翻译领域的成功应用 [27],语音翻译领域也开始逐渐融合大型语言模型,旨在取得类似的显著成果。 大型语言模型的进步显著提高了语音翻译系统的准确性和流畅度。 在语音翻译领域,大型语言模型的集成显著提高了性能。 它不仅提高了语音翻译任务的准确性 [28],而且还扩展了支持语言的范围 [29],使这些模型成为该领域不可或缺的补充。 大型语言模型的引入带来了互补优势,丰富了多语言语音翻译的准确性和多样性。
此外,LLM 在多任务学习场景中表现出色。 例如,Qwen-Audio 模型在将语音转文本与其他模态(如情感分析和说话人识别)相结合的任务中表现出令人印象深刻的性能,与单任务模型相比,其 WER 降低了 10%,情感识别准确率提高了 8% [17]。
语音LLM在传统语音任务中的表现的详细比较和分析,请参考部分6。
2.2.2、长篇语音理解
由于在较长时间内上下文丢失,传统的语音识别系统一直难以理解长篇语音。 这个问题在超过一分钟的音频片段中尤为明显,传统模型在这些片段中往往会出现 WER 急剧上升。 相比之下,基于 LLM 的系统已大大缓解了这个问题。 例如,Whisper 模型在长篇音频中保持上下文一致性,与传统模型相比,在超过五分钟的音频片段中 WER 降低了 18%。 这种改进对于演讲和讲座转录等应用至关重要。
此外,UniAudio 和 Pengi 等模型通过整合先进的上下文理解 [30, 31],在整个扩展的语音片段中表现出显着的低 WER 性能。 这些模型在需要对长时间语音事件进行详细准确转录的领域特别有效,在这些领域中,在长时间内保持上下文至关重要。
2.2.3、热词识别
热词识别一直是传统语音识别系统面临的另一个挑战,尤其是在噪声环境中。 传统模型往往无法准确地在长音频流中检测和区分热词。 2023 年后期推出的 GenTranslate 模型通过利用 LLM 的上下文理解能力 [28] 在该领域取得了重大改进。 在包含多个特定领域热词的测试集中,GenTranslate 在热词识别准确率方面比传统模型提高了 22%。 此外,它在噪声条件下保持了高鲁棒性,标志着比先前方法的重大进步。
基于 LLM 的模型优于传统系统的其他例子包括 Mala-ASR 和 Whisper,它们不仅提高了热词识别准确率 [32],而且还动态适应实时的新热词,这是传统模型所缺乏的功能。 这种能力在动态环境中特别有价值,例如直播或交互式语音应答 (IVR) 系统,其中可能经常引入新术语。
2.2.4、实时多模态交互
将 LLM 集成到语音识别中已将任务范围扩展到传统的语音到文本之外,从而实现实时多模态交互。 像 VoxtLM 和 LauraGPT 这样的模型促进了语音与视觉和文本输入的无缝集成 [33, 34],提供连贯且准确的多模态输出。 这种能力在诸如演示文稿的实时转录和同步翻译之类的应用程序中特别有价值,在这些应用程序中,需要同时处理语音和视觉上下文。
此外,基于 LLM 的系统引入了新功能,例如根据音频输入生成描述性文本、摘要,甚至翻译。 例如,ViOLA 可以生成连贯的摘要和跨语言翻译,具有很高的流畅性和准确性,在输出速度和质量方面都优于传统模型。 这代表了语音识别系统与复杂的多模态数据流交互和解释方式的重大进步 [35]。此外,将大型语言模型与声学相结合已在各个专门领域展示了巨大的发展潜力 [36]。
3、语音 LLM 的模型范式
作为一种整合了音频和文本模式的模型架构,语音 LLM 在输入输出处理和模型结构方面与传统语音模型有很大不同。 值得注意的是,由于显着的共性和普遍趋势,我们选择关注语音 LLM 的较窄定义 1,这涉及将 LLM 作为一个整体集成到 SLU 任务中。
3.1、语音 LLM 输入输出模式

一般来说,语音 LLM 的输入和输出模式可以分为三种主要类型:
- 语音转文本 (S2T)
这种模式是最直接的,与传统的语音识别密切相关。 模型的编码器从音频输入中提取特征,然后大型语言模型生成文本作为输出。 虽然 S2T 模型易于实现,但由于它们仅支持语音转文本转换,因此它们在可以处理的任务范围内受到限制。
- 语音和文本转文本 (ST2T)
ST2T 模式是现代语音识别中最常用的模式,它结合了音频和文本输入。 通常,文本输入充当指令或任务提示。 模型处理两种模态,融合音频和文本信息以生成最终文本输出。 这种方法使多任务能力成为可能,并允许模型充分利用大型语言模型的优势,处理比 S2T 模式更广泛的任务。
- 语音和文本转语音和文本 (ST2ST)
在这种更高级的模式中,在输出端添加了声码器,使模型能够生成文本和音频输出。 这将模型的功能扩展到基本的语音识别之外,支持文本转语音 (TTS)、语音翻译和语音转换等任务。 ST2ST 模式比其他两种模式提供更大的灵活性,使其适用于更广泛的语音和语言任务。
3.2、模型结构

迄今为止,已经开发出各种语音大语言模型架构,所有这些架构都围绕三个基本阶段构建:模态特征提取、模态信息融合 和 大语言模型推断。 如 图 3 所示,尽管输入和输出模态不同,但模型经过的主要阶段是一致的。
语音大语言模型使用针对每种模态特征定制的单独提取器处理来自语音和文本模态的输入。 原始音频输入由音频编码器处理,该编码器提取相关的声学特征,而文本输入由大型语言模型的编码器处理以捕获语言特征。 一旦提取了这些特征,它们就会通过各种技术进行融合,这些技术将在以下部分详细说明。 特征融合后,组合的多模态信息将发送到大型语言模型进行最终解码和输出生成。 在以下部分,我们将考察三种不同的模型架构,每种架构对应于不同的输入-输出模态。



图 4: 语音大型语言模型中音频-文本信息融合的三种方法的说明
3.2.1、S2T
S2T 模型 (语音到文本) 将语音作为输入,并生成文本作为输出。 这些模型通常包含一个音频编码器来从语音信号中提取特征,而文本编码器则不需要,因为不存在文本输入。 因此,为了优化模型大小和效率,通常采用 仅解码器架构 来生成文本输出。 然而,将音频特征与大型语言模型的输入嵌入空间(仅解码器架构)对齐需要一个转换模块。 该模块确保音频特征被正确映射,促进生成准确的文本输出。 正如 Tsunoo 等人在其作品中所讨论的 [37],仅解码器架构对于流式端到端语音识别特别有效,其中效率和实时性能至关重要。
3.2.2、ST2S
ST2S (语音和文本到语音) 模型通过在模态信息提取阶段为每个模态采用不同的编码器来处理语音和文本输入。 具体来说,音频编码器从语音输入中提取相关特征,而文本编码器从文本输入中捕获特征。 在随后的模态信息融合阶段,必须将语音衍生的特征与文本表示空间对齐,以确保一致的集成。 然后将统一的多模态特征传递到大型语言模型的解码器,解码器执行推理和解码过程以生成最终输出。
3.2.3、ST2ST
语音和文本到语音和文本模型 (ST2ST) 在输出中包含额外的语音模态,这在生成阶段需要更复杂的解码机制。 在模态特征提取、模态信息融合和大型语言模型推理之后,文本输出可以通过大型语言模型的解码器生成。 然而,语音输出需要一个声码器来合成最终的语音输出[38, 13]。
4、多模态信息融合
在初步了解了语音 LLM 的整体架构后,我们现在将更详细地考察模型的关键组件。 除了众所周知的音频特征提取和大型语言模型推理阶段之外,语音 LLM 中最关键的问题在于音频模态与文本模态之间的对齐。 对齐这两种模态通常需要两个步骤,每个步骤解决一个具体的问题:第一步,我们称之为音频特征后处理,专注于确定需要哪些特定的音频模态信息。 第二步,称为音频和文本连接,解决如何有效地组合这两种类型的信息。
4.1、音频特征后处理
在这个阶段,研究人员目前倾向于直接使用编码器的最后一层输出。 目前的主流方法是提取编码器的最后一层的输出作为音频模态信息的主要来源。 然而,还有其他各种可用的替代方法。 例如,一些方法涉及使用中间层输出来捕捉更细粒度的特征[39]。 其他方法则应用注意力机制来强调音频信号的相关部分[40]。
4.2、音频和文本连接
一旦获得了音频模态信息,就必须将其与文本模态信息集成,以使 LLM 能够执行最终推理。 目前,使用的方法可以大致分为两类:将音频特征转换为文本模态空间,或者合并音频和文本模态空间。
4.2.1、音频到文本模态转换
将语音模态信息转换为文本模态空间是当今最常用的方法之一。 该方法充分考虑了大型语言模型 (LLM) 主要针对文本模态而设计,从而能够直接将音频模态投影并整合到文本模态空间中。 这有效地最大程度地减少了对 LLM 的修改,同时保留了其强大的功能。 为实现这一目标,需要一个连接器或投影器来转换或投影提取的音频模态特征。 这种神经网络结构应最大程度地减少音频特征信息的丢失,同时确保从音频特征空间到文本特征空间的平滑传输。
目前,采用两种常见的方法(如图4(a) 和 图4(b) 所示):
-
直接投影:通过连接器 [19, 16] 将音频特征信息直接投影到 LLM 的文本特征空间中。 具体来说,包含音频特征的张量被投影到与文本模态对齐的嵌入向量中。 然后,将这些音频嵌入与输入文本的嵌入向量串联起来,创建一个新的嵌入向量,该向量整合了语音和文本信息。 然后,将该组合向量馈送到 LLM 中。当然,一些研究人员也通过将投影步骤内化到原始编码器中来隐式地处理投影步骤,通过在训练期间调整编码器的参数来实现模态投影效果 [17]。
-
标记映射:音频特征信息被映射到 LLM 可以处理的文本标记 [37]。 最初,音频特征通过投影器或转换器传递,以生成与文本标记相对应的符号或表示。 然后,将这些表示与标记化的输入文本组合起来,形成一个包含音频和文本信息的标记序列。 随后将该序列输入到 LLM 中进行处理。 这种方法不仅保留了音频特征信息的完整性,而且确保了 LLM 内的一致处理。
4.2.2、结合音频和文本特征空间
将语音模态投射到文本模态当然很简单,但它并没有真正意义上实现无损模态融合。 在模态转换过程中可能会发生信息丢失和冲突(稍后详细说明)。 因此,研究人员提出了另一种模态对齐方法,该方法涉及修改大型语言模型的原始输入空间,以整合音频模态 [14, 13, 41]。 具体来说,该方法通过在现有文本符元之上添加音频符元来增强符元空间,从而创建一个新的符元空间。 这些新的音频符元是从上一步中提取的音频特征中合成的,从而在很大程度上保留了原始音频信息(如 图 4(c) 所示)。
5、训练策略
当前语音 LLM 的训练主要包括三种方法:预训练、监督微调 (SFT) 和强化学习 (RL)。 由于这些方法的原理和效果不同,因此它们被用于不同的训练阶段和场景。
5.1、预训练
预训练是在大规模无标签数据上训练模型,使其能够学习广泛的通用知识。 通常,在语音 LLM 中,语音编码器会在音频文本对上进行预训练,以捕获音频特征。 包括自监督学习 (SSL) [18] 在内的常见训练策略被广泛使用。 但是,为了更好地将语音编码器与 LLM 整合,一些研究人员尝试重新预训练语音编码器 [42],这使得可以直接获取具有音频特征提取能力的编码器。
对于 第 4.2.2 节中提到的语音 LLM,如前所述,有必要对多模态大型模型进行彻底的重新训练。 这涉及参考大型语言模型的预训练阶段。 通过组织混合的音频和文本数据,我们调整大型语言模型的预训练方法,以适应双模态信息。
5.2、监督微调 (SFT)
对于语音领域中的特定任务,通常需要进一步微调。 监督微调是一种常见的方法,其中使用来自下游任务数据集的高质量标注数据来训练模型,从而提高其在这些任务上的性能。 在语音LLM中,对于前面节4.2.1中提到的结构模型,监督微调是一种极其常见的方法。 它通常用于实现语音编码器与 LLM 之间的对齐,并增强特定任务的性能。 常见的训练方法包括微调连接器,微调编码器和 LLM,例如使用 LoRA 等方法。 这主要涉及处理模态对齐并完成模型对文本符元的映射学习。 同样,在节4.2.2 中描述的结构模型也需要监督微调,这对于增强其在特定任务上的性能至关重要。
值得注意的是,监督微调也经常被用作大型语言模型的唤醒方法。 当模态对齐完成后,大型语言模型可能会经历一定程度的休眠 [16]。 研究人员使用基于音频的对话唤醒微调来重新激活大型语言模型。
5.3、强化学习 (RL)
强化学习 (RL) 是大型语言模型训练中的一种常用方法,尤其是在大型语言模型安全对齐领域 [43]。 与其他训练策略不同,强化学习确保 LLM 在保持输出多样性的同时朝着预期方向优化。 为了在语音 LLM 范式下维护和增强大型语言模型的跨任务集成能力,强化学习是一种有效的训练策略,值得进一步探索 [44, 45]。 但是,它在语音 LLM 中尚未得到广泛应用。
强化学习是一个框架,其中一个智能体与环境交互,以最大化随着时间的推移而累积的奖励。 智能体通过以奖励形式接收反馈来学习,并调整其行为以提高未来的奖励。 在这种情况下,两种常用的强化学习算法是近端策略优化 (PPO) 和直接策略优化 (DPO)。
近端策略优化 (PPO) 是一种策略梯度方法,旨在优化目标函数,同时限制策略更新,以避免与当前策略的较大偏差。 PPO 的目标函数定义为:
其中 是新策略和旧策略之间的概率比,
是优势函数,ϵ 是控制剪切范围的超参数。 剪切机制确保策略更新保持在信任区域内,防止过于激进的更新,这可能会损害模型的性能。
直接策略优化 (DPO) 另一方面,专注于通过定义特定于任务的奖励函数来直接优化策略。 DPO 中的目标可以表示为:
其中 是特定于任务的奖励函数,
是由 θ 参数化的策略。DPO 通过专注于优化策略而没有剪切来直接最大化预期奖励,通常用于更直接的奖励信号可用的设置。
目前,强化学习通常用于通过在奖励模型中设置奖励信号来指导模型的训练,从而进一步提高模型在特定领域的准确性 [18],从而实现进一步的性能改进。
6、语音任务中的性能
随着语音 LLM 的发展,将大型语言模型 (LLM) 整合到基于语音的系统中,已在各个方面取得了重大进展。 本节调查了语音 LLM 在语音理解中几个关键任务中的当前性能,评估了与传统方法相比,LLM 如何增强语音模型的能力。 我们将主要关注两个经典的语音相关任务:自动语音识别 (ASR) 和 语音翻译 (ST),它们各自体现了语音应用的关键方面。 同时,我们将进一步探索语音 LLM 在语音理解领域各种任务中表现出的 多任务 和 跨任务 能力。
6.1、自动语音识别
在本综述中,我们通过词错误率 (WER)评估了各种模型的性能,这些模型在 LibriSpeech 数据集 [46] 的干净测试集和其他测试集上进行了测试,该数据集是评估语音识别系统的重要基准。

图 5: 语音识别任务上的模型性能 (WER%)
基于 LSTM 或 GRU 架构的传统模型在各种基准数据集上始终表现出强大的性能。
例如,基于 LSTM 的模型 Deep Speech 2 在 LibriSpeech干净测试集上实现了大约 3.51% 的词错误率 (WER),在其他测试集上实现了 10.62% 的词错误率 [22]。
大型语言模型 (LLM) 的引入显著改善了这些结果。 值得注意的是,Conformer 模型将干净测试集的 WER 降至 1.9%,其他测试集的 WER 降至 3.9% [8]。 同样,HuBERT Base 模型仅用 960 小时的 LibriSpeech 音频进行训练,就实现了 3.4% 和 8.1% 的 WER。
利用来自 Libri-light 的 60,000 小时的扩展数据集,HuBERT X-Large 模型进一步将干净测试集的 WER 降至 1.9%,其他测试集的 WER 降至 3.5%。 截至 2023 年,Whisper Large-V3 取得了进一步的进展,在干净测试集上实现了新的低 WER,为 1.8%。
最近的语音 LLM 模型,如 Qwen-audio [17] 和 SALMONN [16] 也显示出令人印象深刻的结果,接近最先进的性能,干净测试集的 WER 约为 2%,其他测试集的 WER 低于 5%。
目前,LibriSpeech 数据集上最先进的语音识别系统是 Seed-ASR,它在干净测试集上实现了 1.6% 的 WER,在 其他测试集上实现了 2.8% 的 WER [18]。
6.2、语音翻译

在自然语言处理领域,翻译任务,包括语音翻译 (ST) 和机器翻译 (MT),对于增强全球交流至关重要。 与其他 NLP 领域一样,由于大型语言模型 (LLM) 的最新进展,这些翻译任务取得了重大进展 [47]。 在本调查中,我们使用 BLEU (Bilingual Evaluation Understudy) 得分来评估每个模型在中英双向翻译中的翻译性能。 对于语音翻译,我们使用 FLEURS 测试集 [48],对于从中文到英文的机器翻译,我们使用 FLORES 测试集 [49, 50]。 此外,WMT'20 测试集 [51] 用于英译中机器翻译。
翻译领域有两个主要目标:提高翻译质量和扩大语言覆盖范围。 在机器翻译中,NLLB 模型经过微调以成为通用翻译系统,最初将语言范围扩展到 200 多种语言 [50]。 此外,BigTranslate 利用基于 LLaMA 的指令调优,将 LLM 的翻译适用性扩展到更广泛的语言,取得了与 ChatGPT 和 Google Translate 相当的结果 [27]。 LLM 的出现也推动了语音翻译的进步。 Whisper 使用级联 ASR + MT 方法,通过利用大量网络规模数据,在语音翻译中表现出显著的有效性 [23]。 随后,AudioPaLM2 [14] 通过集成文本和语音模型来提高语音翻译质量,从而作为端到端的语音翻译模型取得了令人印象深刻的结果。 SeamlessM4T [29] 之前在各种公开数据集上实现了 ST 和 MT 任务的最新技术,现在已被 GenTranslate 超越。 此模型利用存储在 N-best 候选中的信息,而不是仅仅依靠束搜索解码的 top-1 选择,这在其他模型中是一种常见的做法 [28]。 请参考 图 6 以详细了解这些模型的性能比较。
6.3、多任务和跨任务能力
除了上述两种语音任务之外,一些语音 LLM 在广泛的语音任务中也表现出了显著的结果,展现了其良好的多任务和跨任务能力。 其中,Pengi 以其多功能性而著称,因为它支持开放式任务,例如音频字幕和音频问答 (AQA),以及封闭式任务,例如声音事件和场景分类,无需任何特定于任务的微调或扩展。 Pengi 的方法涉及将所有音频任务框定为文本生成任务,利用统一的架构有效地将音频和文本输入混合成文本输出,在几个基准测试中取得了最先进的性能,包括音频问答和声音事件分类 [15]。
继 Pengi 之后,SALMONN 通过将语音和通用音频输入(如音乐)集成到单个多模态模型中,进一步扩展了这些功能。 这种集成使 SALMONN 能够在未明确训练的紧急任务中表现出色,例如基于音频的讲故事和语音音频协同推理,说明了其全面的跨模态理解。 其新颖的架构使其能够处理跨不同模态的复杂任务,展示了能够“听”并理解各种听觉信息的跨模态 AI 系统的潜力 [16]。
最后,Qwen-Audio 通过在 30 多个涉及各种音频类型的任务中扩展音频语言预训练,极大地推动了音频交互领域的发展。 该模型在声学场景分类、语音情感识别和自动音频字幕等领域表现出色。 通过采用多任务训练框架,最大限度地减少了各种任务和音频类型之间的干扰,Qwen-Audio 在这些领域取得了突破性的成果,表明音频理解能力得到显著提升 [17]。
7、挑战
尽管在将大型语言模型 (LLM) 应用于语音识别领域取得了重大进展,特别是在自动语音识别 (ASR) 等固定任务中,或者利用 LLM 的强大功能来完成一些多任务处理,但仍然存在许多挑战和问题。 我们验证和测试了一些最前沿的当前工作,这有助于证实我们发现的问题。
7.1、LLM 的休眠
关于使用投影仪将音频特征嵌入投影到文本标记空间并将它们与提示的文本标记嵌入相结合的方法,尽管它在 ASR 任务中显示出高精度和相当的泛化能力,但 LLM 对训练期间未见过的提示没有积极响应。 我们将这种现象称为 LLM 休眠。 为了进一步说明这个问题,我们使用 SLAM-ASR 和 SALMONN 作为复制示例:
SLAM-ASR 的核心思想是通过一个由线性神经网络组成的投影器将音频特征嵌入投影到文本符元嵌入。 在这里,我们使用一个由 wavlm-large、一个投影器和 vicuna-7b 组成的配方,其中 whisper-large 和 vicuna-7b 在训练期间保持冻结,而只有投影器可训练。 我们在 librispeech-960h 数据集上训练了三个 epoch,并在 librispeech test_clean 和 test_other 数据集上取得了接近原始论文中概述的预期结果。
SALMONN 的核心思想是使用一个窗口级 Q-former 来整合 BERT 和 Whisper 提取的音频信息,并将它们映射到文本符元空间。 在训练过程中,我们使用 LoRA 更新了 LLM 和编码器的参数以及窗口级 Q-former。 我们在 librispeech test_clean、test_other 和 Gigaspeech [52] 上取得了与原始论文预期相符的结果。
我们对上面提到的两个模型进行了一系列的提示测试,结果如 表 2 所示。 从表中可以看出,SLAM-ASR 几乎没有响应提示,而 SALMONN 选择性地响应提示,这精确地证实了我们认为 LLM 在当前框架中无法保持完整模型性能的观点。
表 2: 在 Slam-ASR 和 SALMONN 上进行的提示测试;以红色突出显示的文本表示错误或不正确的输出,而黑色文本表示合理的或正确的响应。
从训练策略的角度来看,SLAM-ASR 没有更新编码器或 LLM 的参数,因此更直观地表明问题可能源于中间模态融合步骤。 为了验证我们的方法,我们尝试复制 SLAM-ASR 的训练过程。 然后,我们将投影后的音频特征向量的平均绝对值与从编码提示获得的符元嵌入的平均绝对值进行比较。
图 7: 嵌入的平均绝对值 注意:由于输入嵌入的张量形状为 (批次大小,序列 ID,特征维度),我们将批次大小设置为 1 并计算对应于序列 ID 的所有元素的绝对值的平均值。此处展示的是一个随机选择的音频输入,用于清晰演示。
从 图 7 中,我们观察到音频嵌入与文本嵌入相比要大得多。
回顾典型大型语言模型中 Transformer 模块的流程,文本首先被转换为标记和嵌入,然后计算注意力机制,其中包括位置嵌入。 但是,音频特征向量会被投影,然后直接与文本标记嵌入在语音 LLM 中连接。 显然,这里没有尝试捕获两种模态的位置信息。
在计算注意力分数时,出现了第二个潜在问题。 回忆注意力机制中计算注意力分数所涉及的标准步骤, 鉴于音频-文本模态嵌入向量 E,并且由于 LLM 保持冻结,权重矩阵、
和
是固定的。 我们使用线性变换将 E 转换为查询、键和值向量,计算如下:
接下来,我们计算注意力分数:
其中 是键向量的转置。
为了稳定训练和推理过程,我们可以选择性地缩放点积注意力分数:
其中是键向量的维数。
然后使用 softmax 函数将缩放后的注意力分数转换为概率分布:
最后,我们使用注意力权重对值向量进行加权求和,以获得最终的注意力输出:
Attention Output=Attention Weights⋅V
详细来说,可以表示为:
这里我们可以观察到,由于大型语言模型被冻结,只有 E 会根据输入进行更改。 嵌入 E 是通过连接音频特征嵌入 A 和文本特征嵌入 T 获得的:
我们还可以将 Q、V 和 K 分解为对应于 A 和 T 的向量,例如,
由于 A≫T,根据公式 (1)、(2) 和 (3),由于共享权重矩阵, ≫
与其他向量类似。 很明显,语音部分的最终注意力输出远大于文本部分的输出。 因此,模型可能会忽略文本部分,导致大型语言模型进入休眠状态。
这也可以使用贝叶斯定理 [16] 更广泛、更直观地解释。 设 Y 表示输出,X 表示音频特征,I 表示指令。
如果我们只为给定的音频输入提供一个或几个相应的输出 Y,那么:
不可忽略。 换句话说,I 对结果的影响不会很大。
像 SALMONN 和 Qwen-audio 这样的语音 LLM 在涉及未经训练的语音情感推断和环境理解的任务中表现不佳 [53],甚至可能提供无关的答案。 这进一步支持了我们没有在当前框架下完全实现模态对齐的观察。
7.2、高成本
高昂的使用成本可以分为两个主要方面:时间成本 和 内存成本。 由于大型语言模型的架构复杂性和参数数量众多,推理过程中存在显著的延迟。 例如,使用 Transformer 架构的 Whisper 等模型在推理方面明显比传统模型慢。 此外,大量的参数对 GPU 内存提出了很高的要求,无论是在推理期间还是训练期间。
8、未来探索
针对之前描述的挑战,首要解决的问题是 文本和语音模态的匹配。 目前,将音频符元纳入大型语言模型的符元空间可以实现模态的彻底整合,使大型语言模型向多模态模型过渡 [41]。 然而,这种方法面临数据不平衡和训练成本高昂等问题。 此外,简单地使用连接器进行微调以使模型能够理解连续特征嵌入之间的映射并没有产生预期结果。 核心问题是,当前的模型架构和训练范式无法在保持大型语言模型性能的同时保证任务准确性的提高。 研究人员开始探索替代的匹配方法,例如在将连续特征映射到大型语言模型中的文本符元之前对它们进行约束或规范化,并将它们转换为离散表示 [37]。
在训练策略方面,创新也是必不可少的。 当前的训练方法主要集中在预训练和监督微调上,强化学习 (RL) 尚未得到广泛应用。 然而,当大型语言模型集成到模型架构中时,这些训练方法可能无法完全满足训练大型模型的要求。 考虑到大型语言模型中输入和输出的多样性,探索整合强化学习策略(如近端策略优化 (PPO) [54])可能是有益的。 在监督学习中引入扰动可以帮助保持模型的多任务性能。 此外,为了解决大型语言模型中的幻觉问题,可以使用诸如 人类反馈强化学习 (RLHF) 的技术来应用“软”约束 [55],从而缓解重复输出和其他幻觉现象等问题。
目前,大型模型只在少数几个特定任务中得到广泛部署。 鉴于大型语言模型强大的上下文能力,研究人员开始探索将其整合到更复杂的系统中。 例如,人们越来越关注将大型语言模型整合到对话系统[56]中,将其用作“大脑”来协调系统内的其他组件。 研究人员还在尝试将大型语言模型整合到会议和翻译系统中[57]。 大型语言模型出色的上下文理解和推理能力可以处理多状态判断和选择。 更准确地说,它们在各个领域的出色表现尚未得到充分展示。 考虑到延迟和高昂的训练成本,将它们用作系统协调器更为实用。
同时,语音 LLM 在长语音识别和关键词检测等挑战领域中的潜力值得注意。 鉴于大型语言模型强大的上下文能力,我们可以通过分割或细化长语音文本内容,并将关键词和上下文信息融入提示,以实现更全面、更高质量的推理,从而提高推理质量。
9、结论
本文对语音大型语言模型(Speech LLM)进行了全面探索,重点介绍了它们的架构、训练策略以及在口语理解(SLU)领域取得的进展。 我们考察了从传统方法到整合音频特征提取、多模态信息融合和 LLM 推理的新型架构的演变,促进了更丰富的音频处理和更深入的多模态理解。 我们总结了多模态信息融合的关键方法,包括音频到文本模态转换和结合音频和文本特征空间的几种方法。 此外,我们还讨论了自监督学习和强化学习等训练策略,这些策略能够在各种语音任务中增强性能。 该调查重点介绍了富音频转录方面的关键改进以及跨 SLU 任务进行跨任务集成的潜力。 但是,某些条件下 LLM 的休眠等挑战仍然存在,这突出了在训练策略和系统设计方面进一步创新的必要性。 通过解决这些挑战并探索未来的解决方案,这项工作为推进语音 LLM 及其在多模态环境中的应用提供了宝贵的见解。