【论文翻译】Paraformer语音识别(ASR)

最新推荐文章于 2025-05-02 05:48:12 发布

StarCap

最新推荐文章于 2025-05-02 05:48:12 发布

阅读量1.4k

点赞数 14

分类专栏：论文系列算法+代码文章标签：语音识别人工智能论文阅读

本文链接：https://blog.csdn.net/StarCap/article/details/144462115

版权

Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition

1. Abstract

Transformer 最近在 ASR 领域占据了主导地位。尽管能够产生良好的性能，但它们涉及自回归 (AR) 解码器来逐个生成 token，这在计算上效率低下。为了加快推理速度，设计了非自回归 (NAR) 方法，例如单步 NAR，以实现并行生成。然而，由于输出 token 中的独立性假设，单步 NAR 的性能不如 AR 模型，尤其是在使用大规模语料库时。改进单步 NAR 面临两个挑战：首先要准确预测输出 token 的数量并提取隐藏变量；其次，要增强对输出 token 之间相互依赖性的建模。为了应对这两个挑战，我们提出了一种快速准确的并行 Transformer，称为 Paraformer。它利用基于连续积分和触发的预测器来预测 token 的数量并生成隐藏变量。然后，浏览语言模型 (GLM) 采样器生成语义嵌入，以增强 NAR 解码器对上下文相互依赖性进行建模的能力。最后，我们设计了一种策略来生成负样本，以进行最小词错误率训练，从而进一步提高性能。
使用公共 AISHELL-1、AISHELL-2 基准和工业级 20,000 小时任务进行的实验表明，提出的 Paraformer 可以达到与最先进的 AR 变换器相当的性能，速度提高 10 倍以上。

2. Introduction：

过去几年，端到端 (E2E) 模型在自动语音识别 (ASR) 任务上的性能已经超越了传统混合系统。有三种流行的 E2E 方法：联结时间分类 (CTC) [1]、循环神经网络传感器 (RNN-T) [2] 和基于注意的编码器-解码器 (AED) [3, 4]。其中，AED 模型由于其出色的识别准确率而在 ASR 的 seq2seq 建模中占据主导地位。例如 Transformer [4] 和 Conformer [5]。虽然性能良好，但此类 AED 模型中的自回归 (AR) 解码器需要逐个生成 token，因为每个 token 都以所有先前的 token 为条件。因此，解码器的计算效率低下，并且解码时间随输出序列长度线性增加。为了提高效率和加速推理，提出了非自回归 (NAR) 模型来并行生成输出序列 [6–8]。

根据迭代次数和推理持续时间，NAR 模型可分为迭代或单步。在前者中，A-FMLM 是首次尝试 [9]，旨在通过恒定迭代预测以未屏蔽标记为条件的屏蔽标记。由于需要预定义目标标记长度，因此性能会受到影响。为了解决这个问题，Mask-CTC 及其变体提出使用 CTC 解码来增强解码器输入 [10–12]。即便如此，这些迭代 NAR 模型仍需要多次迭代才能获得有竞争力的结果，从而限制了实践中的推理速度。最近，提出了几种单步 NAR 模型来克服这一限制 [13–17]。它们通过消除时间依赖性同时生成输出序列。虽然单步 NAR 模型可以显著提高推理速度，但它们的识别准确率明显不如 AR 模型，尤其是在大规模语料库上进行评估时。

上述单步 NAR 工作主要关注如何准确预测 token 数量以及提取隐藏变量。与通过预测网络预测 token 数量的机器翻译相比，由于说话者的语速、沉默和噪音等各种因素，ASR 确实很困难。另一方面，根据我们的调查，与 AR 模型相比，单步 NAR 模型犯了很多替换错误（图 1 中表示为 AR 和 vanilla NAR）。我们认为缺乏上下文相互依赖性会导致替换错误增加，特别是由于单步 NAR 中需要条件独立性假设。除此之外，所有这些 NAR 模型都是在阅读场景记录的学术基准上探索的。性能尚未在大规模工业级语料库上进行评估。因此，本文旨在改进单步 NAR 模型，使其能够在大规模语料库上获得与 AR 模型相当的识别性能。(NAR因为缺少上下文关系容易出现同音字错误问题，即论文说的替换错误)

这项工作提出了一种快速准确的并行变压器模型（称为 Paraformer），可解决上述两个挑战。对于第一个挑战，与以前基于 CTC 的工作不同，我们使用基于连续积分和触发 (CIF) [18] 的预测网络来估计目标数量并生成隐藏变量。对于第二个挑战，我们设计了一个基于扫视语言模型 (GLM) 的采样器模块，以增强 NAR 解码器对标记相互依赖性进行建模的能力。这主要受到神经机器翻译 [19] 工作的启发。我们还设计了一种包含负样本的策略，通过利用最小词错误率 (MWER) [20] 训练来提高性能。

我们在公开的 178 小时 AISHELL1 和 1000 小时 AISHELL-2 基准以及工业 20,000 小时普通话语音识别任务上对 Paraformer 进行了评估。Paraformer 在 AISHELL-1 和 AISHELL-2 上分别获得了 5.2% 和 6.19% 的 CER，不仅优于其他最近发布的 NAR 模型，而且与没有外部语言模型的最先进的 AR Transformer 相当。据我们所知，Paraformer 是第一个能够实现与 AR Transformer 相当的识别准确率的 NAR 模型，并且在大型语料库上实现了 10 倍的速度提升。

3. Method

Overview：

所提出的 Paraformer 模型的总体框架如图 2 所示。该架构由五个模块组成，即编码器、预测器、采样器、解码器和损失函数。编码器与 AR 编码器相同，由多个配备内存的自注意力 (SAN-M) 和前馈网络 (FFN) [21] 或一致性 [5] 块组成。预测器用于生成声学嵌入并指导解码。然后，采样器模块根据声学嵌入和字符标记嵌入生成语义嵌入。解码器类似于 AR 解码器，只是它是双向的。它由多个 SAN-M、FFN 和交叉多头注意力 (MHA) 块组成。除了交叉熵 (CE) 损失之外，引导预测器收敛的平均绝对误差 (MAE) 和 MWER 损失也被结合起来联合训练系统。
模型结构

我们将输入表示为 (X, Y)，其中 X 是帧号 T 的声学特征，Y 是目标标签有N个Token。编码器将输入序列 X 映射到隐藏表示序列 H。然后，这些隐藏表示 H 被输入到预测器以预测token数量 $N^{'}$ 和声学embedding $E_a$ 。解码器接收声学embedding $E_a$ 和隐藏表示 H，以生成第一遍的目标预测 $Y^{'}$ ，而无需后向梯度(即这一步只是作为一个反向标签不参与梯度反传)。采样器在声学embedding $E_a$ 和目标embedding $E_c$ 之间进行采样根据预测 $Y^{'}$ 和目标标签Y之间的距离生成语义embedding $E_s$ 。然后，解码器接收语义embedding $E_s$ 以及隐藏表示 H，以生成第二遍的最终预测 $Y^{''}$ ，这次使用后向梯度。最后，对预测 $Y^{''}$

最低0.47元/天解锁文章