【论文随笔5】Context-Aware Transformer Transducer for Speech Recognition

原文链接:【论文随笔5】Context-Aware Transformer Transducer for Speech Recognition - 知乎(封面来自Gent灯光节的Museum of the Moon,灯光节简介 Lichtfestival | Home)背景为了提高端到端的语音识别模型对于不常见单词识别的准确率,此文提出了一种上下文语境感知网络,可基于上下文信息提高语音识别…https://zhuanlan.zhihu.com/p/432320463

背景

为了提高端到端的语音识别模型对于不常见单词识别的准确率,此文提出了一种上下文语境感知网络,可基于上下文信息提高语音识别的准确率。本文采用了RNN-Transducer的框架,并测试了两种不同的context embedding模型:BLSTM和BERT。但这些并非本文的核心,核心在于提出context embedding并将其融合到RNN-T框架的思路。

原文链接:Context-Aware Transformer Transducer for Speech Recognition

https://arxiv.org/pdf/2111.03250.pdf​arxiv.org/pdf/2111.03250.pdf

相关资料

RNN-T全称是Recurrent Neural Network Transducer,是在CTC的基础上改进的。CTC的缺点是它没有考虑输出之间的dependency,即与之前帧的[公式]没有任何关联,而RNN-T则在CTC模型的Encoder基础上,又加入了将之前的输出作为输入的一个RNN,称为Prediction Network,再将其输出的隐藏向量[公式]与encoder得到的[公式]放到一个joint network中,得到输出logit再将其传到softmax layer得到对应的class的概率。[1]

RNN-Transducer是一种序列到序列的模型。但不同于类似CTC的输入一整条音频,输出一个句子的序列模型。RNN-Transducer可以持续不断地输入样本,然后输出对应符号[2]。更多详细的资料,请参见李宏毅老师的视频

一个网上找的实现:

https://github.com/sooftware/RNN-Transducer/tree/8ac134727440b0c7903c56d53a75ecfd543ef3df​github.com/sooftware/RNN-Transducer/tree/8ac134727440b0c7903c56d53a75ecfd543ef3df

一个更容易理解的网络结构[3]

相信经常训练模型的朋友一看到这个网络参数结构图,就明白RNN-Transducer的工作原理了。同时,借助于此图,也会更好地理解下面正文中介绍的文章的创新点。

正文

0. 摘要(Abstract)

端到端的语音识别系统(ASR),对于训练集数据集常见的字的识别,常常存在困难。一个有前景的提高对于罕见字的识别的方法是,基于上下文信息的推理。此文介绍了一种新颖的上下文语境感知的transformer transducer网络(CATT,context-aware transformer transducer network),基于上下文信息以提高语音识别的准确率。具体来说,此文提出了一个基于多头注意力的语境偏置网络,这个网络可以于其余的ASR自网络联合训练。此文探索了不同的上下文数据编码方法,以创建最终的注意力语境向量。此文还利用了基于BLSTM和预训练的BERT模型来对语境数据进行编码,以指导网络的训练。基于室内远场数据集的实验表明,这个方法是有效的。

1. 引言(Introduction)

端到端的ASR系统,例如connectionist temporal classification (CTC), listen-attend-spell (LAS), recurrent neural network transducer (RNN-T) and transformer 等,在训练数据足够的情况下,都显示出了远超HMM-DNN混合模型的卓越表现。混合模型独立优化声学模型 (AM)、发音模型 (PM) 和语言模型 (LM),而端到端的模型隐式的包含了这些模型,并联合优化它们以直接基于给定的输入序列来输出单词序列。此外,端到端的模型在没有外部对齐模块和语言模型的情况下,简化了推理途径,这使得它们更适合在设别上部署。

然而,端到端的ASR系统的一个主要缺陷在于,它无法准确识别在训练数据中很少出现的单词。为了解决这个问题,之前的研究工作利用了稀有词出现得更频繁的上下文语境信息,或者与之相关的权重,例如:the weighted finite-state transducer (WFST) [12] constructed from the speaker’s context [13], domain [14], text metadata of video [15, 16], dialogue state, location, or personalized information about the speaker (e.g., personalized device names or contact names) [9, 17],等等。

一般来说,将语境信息融合进ASR系统的方法可分为两种:训练后融合;和训练中融合。前者只应用于推理阶段,而后者作用于训练和推理阶段。训练后的融合可分为:潜层融合;和深度融合。然而,训练后融合方法的一个主要缺点,是它需要外部的语言模型来重新评分ASR模型的输出,并且,它对重新评分的权重很敏感。

在训练中融合的类别下,与此文最相关的工作是语境LAS,其在LAS的基础上,提出了具有位置感知注意力机制的额外的偏置编码器,以便在训练和推理阶段中,使用标签embeddings来恢复个性化的单词。同样的,上下文RNN-T应用了相同的注意力机制,但是使用的是RNN-T模型。

Transformer及其变体的transformer transducer,已成为ASR中表现最好的模型。此文提出了一个新颖的Context-Aware Transformer Transducer (CATT) network,使得transformer transducer可以在训练和推理阶段使用上下文信息,以提高ASR的准确率。

与C-LAS和C-RNN-T不同的是,此文不只是用BLSTM来编码上下文语境数据,还使用了一个预训练的BERT,这个预训练模型携带有很强的语义知识,可以来指导网络的学习。此外,此文提出了一种基于多头注意力的语境偏置模块,以衡量上下文短语的重要性。此文单独使用音频embeddings或者一起使用音频和标签的embeddings,来衡量上下文的重要性,从而创建对应的上下文语境向量。语境向量被逐帧输入ASR中,以帮助模型学习更好地对齐。

2. 方法(Proposed approach)

2.1. Transformer Transducer

图1(a): Transformer Transducer 的结构

上图1(a)显示了Transformer Transducer的结构,其基于输入音频帧x,输出序列y的概率分布。Transformer Transducer由三部分组成:音频编码器,音频编码器,和联合网络。

音频编码器  由Transformer中堆叠的self-attention层组成,其在以第t帧为中心的预定义窗长 [公式] 内,产生第t帧的embedding [公式] : [公式] ,这里的 [公式] 的角色与混和ASR系统中的声学模型的角色很相似。

标签编码器  也是由Transformer中堆叠的self-attention层组成,其利用前 [公式] 个非空白的tokens [公式] 产生标签的embedding [公式] : [公式] ,其中 [公式] 应该是当前位置对应的token的索引,这里的 [公式] 的角色与混和ASR系统中的语言模型的角色很相似。此文使用子词(subwords)作为tokens。

联合网络将音频编码器和标签编码器的输出结合在一起,产生新的embedding,  ,其中 [公式]都是可学习的参数,其将音频和标签的embeddings映射到同一维度。 [公式] 是非线性函数,此文中选中的是tanh。 [公式] 被输入到线性层和softmax层,以产生输出标签加额外的空白标签的概率分布 [公式] ,

(下来这部分属于RNN-T loss的计算,在图中无体现)当联合网络预测到一个空白符号时,模型会进入下一个时间帧的音频编码器的输出;而当预测到非空白符号时,标签编码器的输出会被更新。这样,就产生了各种对齐路径,它们的概率之和则为给定输入序列时,(具有非空白输出的)输出序列的概率。

2.2. Context-Aware Transformer Transducer (CATT)

为了给模型注入上下文语境信息,此为修改了2.1中描述的Transformer Transducer,并添加了两个额外的组件:1)一个上下文编码器(在图1(c)(d)中);2)一个基于多头注意力的语境偏置层,如下图1(b)所示。

上下文编码器(Context Encoder)

此文中采用的语境包含了由说话人提供的个性化信息,如说话者定义的设备名称、设备设置和设备位置等,如表1所示。每个语境单词或者短语  首先被表示为子词,然后被送入语境编码器 [公式] ,以产生固定维度的向量表示。 [公式] 。

特别的,本文研究了两种语境编码器:基于BLSTM的语境编码器;和基于预训练模型BERT的语境编码器。BLSTM的编码器是和网络的其余部分一起训练的,而由于预训练模型BERT含有很强的先验语义信息,所以此文还测试了冻结住BERT部分的参数,只训练网络其余部分参数的结果。

2.1小节中的transformer transducer只基于音频编码器和标签编码器的结果,来产生令牌的概率

相比之下,此文提出的语音感知的transformer transducer,其输出概率也有条件地依赖于语境数据。即  变成了

基于多头注意力的语境偏置层(Multi-Head Attention based Context Biasing Layer)

图1(b):基于多头注意力的语境偏置层,Q可选取为音频或者标签embedding

该模块旨在学习语境短语与话语的相关性。通过这种方式,模型可以更加关注与实体名称或者个性化的词汇对应的帧,以助于提高其预测精度。由于此文是基于transformer搭建的,所以多头注意力成为了学习语境embeddings和话语embedding之间关系的自然选择。

由于此文使用的音频编码器是一个双向的transformer,其比标签编码器含有更多的关于输入话语的信息,所以此文首先尝试了将音频embeddings作为查询的queries以参与到语境中,如图1(c)所示。此文也尝试了使用音频和标签的embeddings作为queries以参与到语境信息中,如图1(d)所示。

图 1 (c)(d)

至此,本文的创新点及模型部分结束。

3. 结论(Conclusion)

此文提出了一种新颖的CATT模型,使得基于transformer transducer的ASR模型,可以在训练和推理中使用上下文语境的数据。其中上下文语境的相关性,是通过提出的多头注意力机制基于单独或与标签一同输入的音频embeddings测量的。

参考

  1. ^语音识别中的End2End模型: CTC, RNN-T与LAS - 知乎
  2. ^深度学习与人类语言处理-语音识别(part3) - 鱼与鱼 - 博客园
  3. ^CTC,RNN-Transducer, LAS_一花一世界 一叶一菩提-CSDN博客
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值