IMPROVING END-TO-END CONTEXTUAL SPEECH RECOGNITION WITH FINE-GRAINED CONTEXTUAL KNOWLEDGE SELECTION

基于细粒度上下文知识选择改进端到端上下文语音识别

一、引言

本文改进基本的协同编码ColDec:细粒度上下文知识选择(FineCoS)、上下文净化和位置信息。对于 FineCoS,我们首先根据候选短语与局部声学嵌入的相关性来限制候选短语的范围,然后使用细粒度注意力从这些短语候选中的所有标记中提取令牌级上下文表示。在推理中,我们通过重新整合最相关的短语来减少上下文混淆来净化短语级别的上下文表示。此外,还探索了在不同粒度上注入位置信息对上下文建模的影响。

二、方法

2.1 Collaborative Decoding协同编码

在这里插入图片描述

协作解码 (ColDec) 引入了短语级上下文建模和基于注意力的相关性建模,以将基于 CIF 的 ASR 模型上下文化。在 ColDec 中,除了 ASR 模型外,还训练了一个上下文处理网络 (CPN) 从转录中提取目标偏置短语。例如,给定参考“en@@ ni@@ s tri@@ ed to sleep”和目标短语“en@@ ni@@ s”,我们通过保留目标短语的标记并用“#”替换其他标记来生成 CPN的训练目标"en@@ ni@@ s # # # #"(“#”表示没有偏置输出)。如图1所示,基于CIF的模型由一个编码器、一个CIF模块和解码器组成。CPN 包括一个编码器、一个注意力模块和一个解码器。这种方法被命名为协同解码,因为由CIF模块发出的令牌级声学嵌入序列 [c1,…, ci. …, cI ] 同时驱动 ASR 模型的解码和 CPN的解码。

具体来说,给定原始偏差短语列表 [z1,…, zn,…, zN ],引入无偏差选项 znb(标记NO-BIAS) 作为不使用上下文的选项,然后添加标记EXT添加到每个短语的开头以进行短语嵌入提取。处理偏差列表 Z 的例子如图 1 右下角所示。在图 1 的右上角,CPN 编码器将第 n 个短语 zn 编码为表示为 en,e (enb,e 用于无偏差选项)。对于所有短语嵌入 [enb,e, e1,e,…, en,e,…, eN,e] 作为键/值,CPN 注意力使用令牌级声学查询 ci 来生成短语级上下文表示 mi。最后,将 ci 和 mi 连接起来,然后发送到 CPN 解码器。在推理时,由 CIF 输出 ci、ASR 解码器和 CPN 解码器使用插值对数概率进行解码(log Pi + λlog Pci ,其中 λ 控制偏差的程度)。请注意,对于 CPN,每个训练批次的偏差短语都是从参考转录中的 n-gram 中随机抽取的,而测试集的偏差短语通常是从上下文中手动提取的。

2.2 减少混淆短语

2.2.1 细粒度的上下文知识选择FineCoS

在这里插入图片描述

细粒度上下文知识选择(FineCoS)引入了令牌级上下文知识来减少令牌预测的不确定性。首先,我们对 CPN 编码器发出的令牌嵌入 en,j(其中 j 表示令牌的索引,n 表示短语的索引)及其对应的短语嵌入 en,e 应用加法来生成最终的令牌嵌入 ̄en,j。此操作通知模型令牌嵌入属于哪个短语。与短语级别的注意力类似,引入了令牌级无偏差选项 ̄enb,1 来表示不使用上下文知识。在加法操作之后,可以被视为“软选择”的令牌级注意力捕获了声学嵌入 ci 和最终令牌嵌入之间的相关性 [ ̄enb,1, ̄e1,1,…, ̄en,1, ̄en,2,…, ̄eN,1, ̄eN,2,…],并输出令牌级上下文表示 gi。最后,gi 和 CPN 解码器的输出状态的串联通过投影层和 softmax 层来预测 CPN 目标。

不幸的是,偏置短语通常数以千计,这使得令牌级注意力变得难以处理。因此,我们应用短语级硬选择来缩小候选短语的范围。具体来说,根据CPN注意力权重αi,n的排名,从Z中选择前M个短语。在获得前 M 个相关短语 [̃z1,…, ̃zm…, ̃zM ] 加上无偏差选项 znb,我们保留来自这些 M+1 个短语的令牌嵌入,并使用这些保留的令牌嵌入 [ ̄e1,1,…, ̄em,1,…, ̄eM,1,…] 加上令牌级无偏差选项 ̄enb,1 作为键/值。图2所示FineCoS的过程写为:
在这里插入图片描述

2.2.2 Context purification上下文净化

我们提出了上下文净化,使短语级上下文表示 mi 在推理过程中更关注相关的上下文知识。在每个时间步 i,最相关的短语占据了很大比例的注意力,而其余短语只提供非常有限的短语级上下文建模的信息。因此,丢弃这些冗余短语会使 mi 更加关注相关的偏置短语。具体来说,根据其 CPN 注意力权重的排名选择前 K 个偏差短语。然后,它们对应的注意力权重[̃αi,1,…, ̃αi,k ,…, ̃αi,K ] 被重新归一化,这使得该部分分布的总和等于 1。最后,选择的 K 个短语嵌入[ ̃e1,e,…, ̃ek,e,…, ̃eK,e] 及其重新归一化的注意力权重 [ ^αi,1,…, ^αi,k ,…, ^αi,K ] 通过加权和组合为纯化的上下文表示 mi。在推理时在每个时间步应用上下文净化,其过程大致写为:
在这里插入图片描述
其中 波浪号表示“选择”,帽子表示“重新归一化”。

2.2.3 位置信息

与 ColDec相比,位置信息对上下文建模的影响在短语级别和令牌级别进行探索。我们通过位置编码将位置信息注入 CPN 编码器的输入。直观地说,位置编码有助于 CPN 编码器对短语的标记位置分布的差异进行建模。此外,位置信息使标记更加可区分,因为它告诉模型标记所在的短语的哪一部分。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值