CIF-BASED COLLABORATIVE DECODING FOR END-TO-END CONTEXTUAL SPEECH RECOGNITION

基于辅助的END-TO-END上下文语音识别

引言

在这项工作中,我们专注于将上下文信息合并到基于帧同步的 E2E 模型中——基于连续集成和发射 (CIF) 的模型,该模型使用软单调对齐机制并支持声学嵌入的提取(每一个都对应于一个输出单元)。提取的声学嵌入 ci 为基于 CIF 的模型与上下文信息交互以获得声学相关的上下文嵌入 mi 提供了桥梁。由于 mi 可以被上下文解码器消耗以获得上下文输出分布,因此上下文解码器和基于 CIF 的模型的原始解码器执行具有可调权重的协作解码以获得最终结果。同时,模型在推理过程中的可调权重赋予了我们的模型明确控制上下文偏差的影响的能力。

为了进一步改进我们的方法,我们提出了两种辅助技术:1)基于梯度累积的训练策略,使我们的模型能够看到更多样化的上下文信息;2)注意力缩放插值(ASI)技术来缓解过度偏差现象,防止上下文信息错误地偏向不相关的位置。

方法

连续集成和发射CIF

在这里插入图片描述
如上图中的虚线框所示,连续集成和发射(CIF)是连接编码器和解码器的中间件。编码器接收特征 X = {x1, x2,…, xt…, xT} 并产生编码的输出 H = {h1, h2,…, hu,…, hU}。在每个编码器步骤 u 中,CIF 以从左到右的方式累积来自 hu 的权重 αu,因此它可以支持在线 ASR。在积累过程中,累积的权重达到阈值(1.0)被认为是发射的标志,与该发射对应的编码器步骤 u 被标记为声学边界。声学边界的权重分为两部分:一个用于整合当前标签,另一个用于整合下一个标签。然后,CIF以加权和的形式集成相关的编码输出,得到与当前输出标签yi对应的声学嵌入ci。在集成后,将集成的声学嵌入 ci 发送到解码器进行预测。使用 ci 和最后一个预测标签 yi-1,解码器可以预测当前输出标签 yi 的概率。

上下文处理网络CPN

如上图所示,我们在原始的基于CIF的模型中引入了上下文处理网络,由三部分组成:上下文编码器(c-encoder)、上下文注意(c-attention)和上下文解码器(c-decoder)。

由于上下文信息通常被认为是上下文语音识别中的上下文片段 (n-gram、查询和实体) ,因此 c-encoder 主要用于提取这些片段的嵌入。给定一个上下文短语列表 Z = { z1, z2,…, zN },c-encoder将每个短语编码为向量。在这里,我们引入了两个额外的标记EXT和NO-BIAS:EXT被添加到每个片段的开头作为提取占位符(如图上右侧所示),并且“EXT NO-BIAS”代表一个额外的无偏差选项,表示不需要偏差。因此,N +1 嵌入 {e1, e2,…, eN +1} 可以从 c-encoder 的EXT输出位置中提取。使用获得的 N + 1 嵌入,c-attention 将它们用作键 (K) 和值 (V),并使用来自 CIF 的声学嵌入 ci 作为多头注意力的查询 (qi) 来产生当前的声学相关上下文嵌入 mi。然后将 ci 和 mi 连接为 c-decoder 的输入 gi。c-decoder 是一个具有future masking的非自回归解码器,每个解码步骤只关注自身及其前面的步骤,其输出对上下文输出分布 Pc(yi|g≤i) 进行建模。Pc的计算过程如下(此处省略了残差连接和层归一化):
在这里插入图片描述
在这里插入图片描述

协同解码Collaborative Decoding

由于上下文处理网络由传入的声学嵌入 ci 驱动,原始decoder和 c-decoder 同步预测它们各自的第 i 个输出分布,因此我们在这项工作中称为我们的方法协同解码 (ColDec)。

在训练阶段,整个结构不仅支持从头开始训练,而且还支持通过冻结经过训练的基于 CIF 的模型并仅更新上下文处理网络来训练。在这项工作中,我们使用第二种方法进行更快的训练。具体来说,上下文处理网络使用上下文交叉熵 (c-CE) 损失进行训练,该损失旨在使上下文处理网络与声学嵌入 ci 交互并提取声学相关的上下文嵌入 mi。c-CE 损失的训练目标是通过保持参考和给定上下文段之间的重叠部分中的字符不变来生成的,并用NON(表示为“#”)屏蔽其他字符,如结构图顶部所示。

对于每个上下文处理网络的训练batch,我们首先使用分词器jiaba将每个短语分割成一些单词(这对于中文文本是必要的),然后我们从 {1, 2, 3, 4} 中随机采样一个值 n,并从每个分割中随机抽取一个 n-gram(使用采样的 n)。最后,我们随机抽取 50% 提取的 n-gram 作为上下文短语列表(包括无偏差选项,在后面的部分中表示为 c-batch)。

在推理过程中,基于 CIF 的模型的原始解码器和 c-decoder 使用波束搜索进行协作解码,如下所示:
在这里插入图片描述
其中 P (yi|c≤i, y≤i−1) 和 Pc(yi|g≤i) 分别表示基于 CIF 的模型和 c-decoder 的原始解码器的概率,λ 是控制上下文信息影响的可调权重。

辅助技术

为了更有效地学习上下文处理网络,我们应用了基于梯度累积的训练策略。对于每个训练批次,我们的框架首先生成多个 c 批次。然后,独立计算与这些 c 批次对应的 c-CE 损失,并对它们的梯度进行平均以进行模型更新。该策略重用了从 CIF 中提取的声学嵌入,并使我们的模型能够看到更多样化的上下文。

在推理中,我们提出了一种用于协同解码的注意力缩放插值 (ASI) 方法。该技术用于缓解过度偏差现象(上下文信息错误地偏向不相关的位置)。由于插值权重 λ 直接影响推理过程中上下文信息的贡献,我们寻求削弱偏差置信度不够强的解码步骤的偏差。在这里,我们将 1 - αi nb (αi nb 是第 i 步无偏差“EXT NO-BIAS”的注意力权重)称为偏差置信度。以1−αi nb为λ的比例因子,抑制了偏差置信度较低的步骤的影响,而偏差置信度较高的步骤的影响几乎保持不变。新的插值权重变为(1−αi nb) * λ。请注意,每个步骤的注意力权重在 c-attention 的所有注意力头上进行平均:
在这里插入图片描述
其中 M 表示 c-attention 中的注意力头数。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
item-based collaborative filtering recommendation algorithm combining item c是一种基于物品的协同过滤推荐算法,在推荐系统中被广泛应用。该算法的核心思想是通过分析用户对不同物品的行为数据,找出与物品c具有相似特征或相关性较高的其他物品,并将这些物品推荐给用户。 具体来说,item-based collaborative filtering算法首先会构建一个物品相似度矩阵。该矩阵的每个元素表示不同物品之间的相似度程度。物品之间的相似度可以通过计算它们在用户行为上的重合度、关联度或其他相似性指标得出。 在物品相似度矩阵构建完成后,当用户需要进行推荐时,算法会根据用户已有的历史行为数据找出与用户已喜欢或购买的物品c相似的其他物品。对于相似物品集合中的每个物品,算法会根据用户对该物品的评分或其他行为数据,对推荐物品进行排序。最后,算法会返回排名靠前的若干个推荐物品给用户。 通过将物品c与其他物品进行比较,并利用物品相似度矩阵进行排序,item-based collaborative filtering算法可以更加准确地将与用户兴趣相关的物品推荐给用户。同时,它也能够克服用户行为数据稀疏性的缺点,提高推荐的个性化程度。 总的来说,item-based collaborative filtering recommendation algorithm combining item c是一种有效的推荐算法,可以根据用户已有的历史行为数据找出与物品c相似的其他物品,并将这些物品按照用户的兴趣进行推荐。这种算法在实际应用中有着广泛的应用和良好的推荐效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值