基于辅助的END-TO-END上下文语音识别
引言
在这项工作中,我们专注于将上下文信息合并到基于帧同步的 E2E 模型中——基于连续集成和发射 (CIF) 的模型,该模型使用软单调对齐机制并支持声学嵌入的提取(每一个都对应于一个输出单元)。提取的声学嵌入 ci 为基于 CIF 的模型与上下文信息交互以获得声学相关的上下文嵌入 mi 提供了桥梁。由于 mi 可以被上下文解码器消耗以获得上下文输出分布,因此上下文解码器和基于 CIF 的模型的原始解码器执行具有可调权重的协作解码以获得最终结果。同时,模型在推理过程中的可调权重赋予了我们的模型明确控制上下文偏差的影响的能力。
为了进一步改进我们的方法,我们提出了两种辅助技术:1)基于梯度累积的训练策略,使我们的模型能够看到更多样化的上下文信息;2)注意力缩放插值(ASI)技术来缓解过度偏差现象,防止上下文信息错误地偏向不相关的位置。
方法
连续集成和发射CIF
如上图中的虚线框所示,连续集成和发射(CIF)是连接编码器和解码器的中间件。编码器接收特征 X = {x1, x2,…, xt…, xT} 并产生编码的输出 H = {h1, h2,…, hu,…, hU}。在每个编码器步骤 u 中,CIF 以从左到右的方式累积来自 hu 的权重 αu,因此它可以支持在线 ASR。在积累过程中,累积的权重达到阈值(1.0)被认为是发射的标志,与该发射对应的编码器步骤 u 被标记为声学边界。声学边界的权重分为两部分:一个用于整合当前标签,另一个用于整合下一个标签。然后,CIF以加权和的形式集成相关的编码输出,得到与当前输出标签yi对应的声学嵌入ci。在集成后,将集成的声学嵌入 ci 发送到解码器进行预测。使用 ci 和最后一个预测标签 yi-1,解码器可以预测当前输出标签 yi 的概率。
上下文处理网络CPN
如上图所示,我们在原始的基于CIF的模型中引入了上下文处理网络,由三部分组成:上下文编码器(c-encoder)、上下文注意(c-attention)和上下文解码器(c-decoder)。
由于上下文信息通常被认为是上下文语音识别中的上下文片段 (n-gram、查询和实体) ,因此 c-encoder 主要用于提取这些片段的嵌入。给定一个上下文短语列表 Z = { z1, z2,…, zN },c-encoder将每个短语编码为向量。在这里,我们引入了两个额外的标记EXT和NO-BIAS:EXT被添加到每个片段的开头作为提取占位符(如图上右侧所示),并且“EXT NO-BIAS”代表一个额外的无偏差选项,表示不需要偏差。因此,N +1 嵌入 {e1, e2,…, eN +1} 可以从 c-encoder 的EXT输出位置中提取。使用获得的 N + 1 嵌入,c-attention 将它们用作键 (K) 和值 (V),并使用来自 CIF 的声学嵌入 ci 作为多头注意力的查询 (qi) 来产生当前的声学相关上下文嵌入 mi。然后将 ci 和 mi 连接为 c-decoder 的输入 gi。c-decoder 是一个具有future masking的非自回归解码器,每个解码步骤只关注自身及其前面的步骤,其输出对上下文输出分布 Pc(yi|g≤i) 进行建模。Pc的计算过程如下(此处省略了残差连接和层归一化):
协同解码Collaborative Decoding
由于上下文处理网络由传入的声学嵌入 ci 驱动,原始decoder和 c-decoder 同步预测它们各自的第 i 个输出分布,因此我们在这项工作中称为我们的方法协同解码 (ColDec)。
在训练阶段,整个结构不仅支持从头开始训练,而且还支持通过冻结经过训练的基于 CIF 的模型并仅更新上下文处理网络来训练。在这项工作中,我们使用第二种方法进行更快的训练。具体来说,上下文处理网络使用上下文交叉熵 (c-CE) 损失进行训练,该损失旨在使上下文处理网络与声学嵌入 ci 交互并提取声学相关的上下文嵌入 mi。c-CE 损失的训练目标是通过保持参考和给定上下文段之间的重叠部分中的字符不变来生成的,并用NON(表示为“#”)屏蔽其他字符,如结构图顶部所示。
对于每个上下文处理网络的训练batch,我们首先使用分词器jiaba将每个短语分割成一些单词(这对于中文文本是必要的),然后我们从 {1, 2, 3, 4} 中随机采样一个值 n,并从每个分割中随机抽取一个 n-gram(使用采样的 n)。最后,我们随机抽取 50% 提取的 n-gram 作为上下文短语列表(包括无偏差选项,在后面的部分中表示为 c-batch)。
在推理过程中,基于 CIF 的模型的原始解码器和 c-decoder 使用波束搜索进行协作解码,如下所示:
其中 P (yi|c≤i, y≤i−1) 和 Pc(yi|g≤i) 分别表示基于 CIF 的模型和 c-decoder 的原始解码器的概率,λ 是控制上下文信息影响的可调权重。
辅助技术
为了更有效地学习上下文处理网络,我们应用了基于梯度累积的训练策略。对于每个训练批次,我们的框架首先生成多个 c 批次。然后,独立计算与这些 c 批次对应的 c-CE 损失,并对它们的梯度进行平均以进行模型更新。该策略重用了从 CIF 中提取的声学嵌入,并使我们的模型能够看到更多样化的上下文。
在推理中,我们提出了一种用于协同解码的注意力缩放插值 (ASI) 方法。该技术用于缓解过度偏差现象(上下文信息错误地偏向不相关的位置)。由于插值权重 λ 直接影响推理过程中上下文信息的贡献,我们寻求削弱偏差置信度不够强的解码步骤的偏差。在这里,我们将 1 - αi nb (αi nb 是第 i 步无偏差“EXT NO-BIAS”的注意力权重)称为偏差置信度。以1−αi nb为λ的比例因子,抑制了偏差置信度较低的步骤的影响,而偏差置信度较高的步骤的影响几乎保持不变。新的插值权重变为(1−αi nb) * λ。请注意,每个步骤的注意力权重在 c-attention 的所有注意力头上进行平均:
其中 M 表示 c-attention 中的注意力头数。