Attention-based End-to-End Models for Small-Footprint Keyword Spotting基于注意的小脚印关键字点对点模型

Abstract

在本文中,我们提出了一种基于注意力的端到端神经网络方法,用于小足迹关键词发现(KWS),旨在简化构建生产质量的KWS系统的流程。我们的模型包括一个编码器和一个注意机制。编码器使用RNN将输入信号转换为高级表示。然后,注意力机制对编码器特征进行加权,并生成固定长度的向量。最后,通过线性变换和softmax函数,向量成为用于关键字检测的得分。我们还评估了不同编码器架构(包括LSTM,GRU和CRNN)的性能。在现实世界中唤醒数据的实验表明,我们的方法在很大程度上优于最新的Deep KWS方法,并且CRNN实现了最佳性能。更具体地说,在约84K参数的情况下,我们的基于注意力的模型在每小时1.0次错误警报(FA)的情况下实现了1.02%的错误拒绝率(FRR)。
索引词:基于注意力的模型,端到端关键字识别,卷积神经网络,递归神经网络

1. Introduction

关键字发现(KWS)或口语检测(STD)是一项任务,用于检测音频流中的预定义关键字。具体而言,作为KWS的典型应用,唤醒单词检测已成为各种设备上必不可少的功能,以使用户拥有完全的免提体验。实用的设备上KWS模块必须以较低的误报率将误报率降至最低,以使其易于使用,同时将内存占用空间,等待时间和计算成本限制得尽可能小。
作为经典解决方案,基于大词汇量连续语音识别(LVCSR)的系统[1、2]被广泛用于KWS任务。尽管可以根据用户要求灵活地更改关键字,但是基于LVCSR的系统需要生成丰富的网格,并且关键字搜索需要大量的计算资源。这些系统通常被设计为搜索音频内容的大型数据库。已经提出了几种最近的尝试来降低计算成本,例如,使用基于端到端的声学模型[3,4]。但是这些模型仍然很大,因此不适用于小尺寸,低延迟的应用程序。 KWS的另一种经典技术是关键字/填充器隐马尔可夫模型(HMM)方法[5],直到今天仍然具有很强的竞争力。 HMM分别针对关键字和非关键字音频片段进行训练。在运行时,维特比解码用于在解码图中搜索最佳路径,根据HMM拓扑的不同,这在计算上可能会非常昂贵。在这些方法中,最初使用高斯混合模型(GMM)对观察到的声学特征进行建模,但是
深度学习的进步,最近已经采用了深度神经网络(DNN)来代替具有改进性能的GMM [6]。一些研究用训练有联系者时间分类(CTC)标准的RNN模型或基于注意力的模型[8]代替了HMM,但是,这些研究仍在关键字/填充符框架下。
作为Google使用的占用空间小的方法,Deep KWS [9]最近引起了很多关注。在这种方法中,训练了一个简单的DNN以预测子关键字目标和填充词的帧级后验。当通过后处理方法产生的置信度得分超过阈值时,将检测到关键字。在不涉及HMM的情况下,该方法的性能优于关键字/填充HMM方法。此外,这种方法非常适合在占用空间小且延迟低的设备上运行,因为DNN的大小可以轻松控制并且不涉及图形搜索。后来,前馈DNN被功能更强大的网络所取代,例如卷积神经网络(CNN)[10]和递归神经网络(RNN)[11],并有望得到改进。应该注意的是,尽管Deep KWS的框架非常简单,但仍然需要训练有素的声学模型来获得帧级对齐。
在本文中,我们旨在进一步简化构建具有生产质量的KWS的流程。具体来说,我们提出了一种基于注意力的端到端神经模型,用于小足迹关键词发现。通过端到端的说法,我们的意思是:(1)直接输出关键字检测的简单模型; (2)不涉及复杂的搜索; (3)无需事先对齐即可训练模型。我们的工作受到语音识别[12、13、14],机器翻译[15],文本摘要[16]和说话者验证[17]中最近使用的注意力模型成功的启发。在KWS中使用注意力机制是直观的:人们能够以“高分辨率”(例如,听众的名字)专注于音频流的某个区域,同时以“低分辨率”感知周围的音频,然后调整焦点随着时间的推移。
我们的端到端KWS模型由编码器和注意机制组成。编码器使用RNN将输入信号转换为高级表示。然后,注意机制对编码器特征进行加权,并生成固定长度的向量。最后,通过线性变换和softmax函数,向量成为用于关键字检测的得分。就端到端和小尺寸而言,最接近我们的方法是Kliegl等人提出的方法。 [18],其中使用了卷积递归神经网络(CRNN)体系结构。但是,由其较长的解码窗口(T = 1.5秒)引入的延迟使该系统难以在实际应用中使用。

为了改进我们的端到端方法,我们进一步探索了编码器架构,包括LSTM [19],GRU [20]和受[18]启发的CRNN。 对真实唤醒数据的实验表明,我们的方法在很大程度上优于Deep KWS。 GRU比LSTM更受青睐,CRNN可以实现最佳性能。 更具体地讲,仅使用约84K参数,基于CRNN的注意力模型就可以在每小时1.0错误警报(FA)的情况下达到1.02%的错误拒绝率(FRR)。

2. Attention-based KWS

2.1。 端到端架构
我们建议在小字体关键词发现中使用基于注意力的端到端模型。 如图1所示,端到端体系结构由两个主要子模块组成:编码器和注意机制。 编码器从输入语音特征x =(x1,...,xT)得到更高级别的特征表示h =(h1,...,hT):

具体而言,编码器通常是可以直接使用语音上下文信息的RNN。 在我们的工作中,我们展示了不同的编码器结构,包括GRU,LSTM和CRNN。 注意机制从特征表示中学习归一化权重αt∈[0,1]:

然后我们将定长向量c作为的加权平均值编码器输出h:

最后,我们通过线性变换生成概率分布形成和softmax函数:

 

2.2。 注意机制
与人类听觉注意力类似,我们模型中的注意力机制会选择语音部分,而这些语音部分更可能包含关键字,而忽略了不相关的部分。 我们调查平均注意力和轻微注意力。
平均关注度:Attend模型没有可训练的参数,并且将αt设置为T的平均值:

软注意力:这种注意力方法是从说话者验证中借用的[17]。 与其他注意层相比,共享参数非线性注意被证明是有效的[17]。 我们首先学习标量得分等:

然后我们使用这些标量计算归一化权重αt分数:

2.3。 解码

如图1所示,与某些其他方法[9]不同,我们的端到端系统直接输出置信度评分,而无需进行后处理。 与Deep KWS系统类似,当p(y = 1)超过预设阈值时,将触发我们的系统。 在图2中的解码过程中,输入是语音特征的滑动窗口,其具有预设的长度并包含整个关键字。 同时,采用了帧移位。 我们系统中的一小部分参数导致占用内存少。 对于滑动窗口,我们只需要向网络中馈入一帧即可进行计算,而其余帧已经在上一个滑动窗口中进行了计算。 因此,我们的系统具有较低的计算成本。

3. Experiments

3.1。 数据集
我们使用从Mi AI Speaker1收集的真实唤醒数据评估了建议的方法。 唤醒词是四个音节的汉语普通话(“ xiao-ai-tong-xue”)。 我们收集了〜188.9K个阴性样本(〜99.8h)和〜1007.4K个阴性样本(〜1581.8h)作为训练集。 保留的验证集有〜9.9K个正例和〜53.0K个负例。 测试数据集有〜28.8K个阴性示例(〜15.2h)和〜32.8K个阴性示例(〜37h)。 每个音频帧都是基于40通道Mel-filterbank,25ms开窗和10ms帧偏移来计算的。 然后将滤波器组特征转换为每通道能量归一化(PCEN)[21]梅尔谱图。

3.2。基准线
我们重新实现了Deep KWS系统[9]作为基线,在该系统中,网络预测了唤醒词和填充词中四个中国音节的后验。此处的“填充词”是指不包含关键字的所有语音。具体来说,我们采用了三种不同的网络,包括DNN,LSTM和GRU。为了进行票价比较,将网络配置设置为与建议的注意力模型具有相似的参数大小。前馈DNN模型具有3个隐藏层和每层64个隐藏节点,且具有线性线性校正(ReLU)非线性。使用具有15个左框架和5个右框架的输入窗口。 LSTM和GRU模型建立有2个隐藏层和每层64个隐藏节点。对于GRU KWS模型,最后的GRU层后面是具有ReLU非线性的完全连接层。 LSTM和GRU模型的输入中没有堆叠的框架。 Deep KWS的平滑窗口设置为20帧。在KWS模型训练之前,我们还使用约3000个小时的语音数据训练了基于TDNN的声学模型,以执行帧级对齐。

3.3。实验装置
在神经网络模型中,所有的权重矩阵均通过归一化初始化[22]进行初始化,并且偏差向量被初始化为0。我们使用ADAM [23]作为优化方法,同时降低了学习率。从1e-3收敛到1e-4。应用了梯度范数裁剪为1以及L2权重衰减1e-5。正训练样本的帧长为T = 1.9秒,可确保包括整个唤醒字。因此,在注意模型中,输入窗口已设置为189帧以覆盖唤醒字的长度。我们从否定示例集中随机选择了189个连续帧来训练注意力模型。在运行时,将滑动窗口设置为100帧,将帧移位设置为1。通过绘制FRR(每小时1.0 FA的运行阈值)来观察性能,同时绘制接收器工作曲线(ROC)。
3.4。注意机制的影响
从表1和图3,我们可以清楚地看到注意力模型的卓越性能。由于参数大小相似,因此建议的注意力模型在很大程度上优于Deep KWS系统。我们还注意到,在Deep KWS和注意力模型中,GRU均优于LSTM。毫不奇怪,基于软注意力的模型可以实现最佳性能。以每小时1.0 FA的速度运行时,GRU注意模型将FRR从6.38%(GRU Deep KWS)降低到1.93%,显着降低了误剔除率。
3.5。编码器架构的影响
我们进一步关注了编码器架构的影响。结果总结在表2,图4和图5中。从表2中,我们注意到较大的模型总是比较小的模型表现更好。观察LSTM模型,1-128 LSTM模型以1.0 FA /小时的FRR为2.99%获得了最佳性能。在图4中,以每小时较低的FA重叠1-128 LSTM模型和3-64 LSTM模型的ROC曲线。这意味着使LSTM网络更宽或更深可以达到相同的效果。然而,从图5可以看出,对于GRU而言,相同的结论并不成立。 1-128 GRU模型具有明显的优势3-64 GRU模型。换句话说,增加节点数可能比增加层数更有效。最终,1-128 GRU模型以1.0 FA /小时的速度达到1.49%的FRR。
3.6。添加卷积层
受[18]的启发,我们最终研究了添加con-
GRU注意模型中的卷积层为卷积
网络通常被用作提取不变特征的一种方式。对于
在基于CRNN注意的模型中,我们使用了一层CNN
有一个C(20×5)滤镜。我们探索了不同数量的输出1×2
通道和结果总结在表3和图6中。从表3中,我们可以看到添加卷积层可以进一步提高性能。我们使用84.1K参数在1.0 FA /小时的条件下实现了1.02%的最低FRR。另一个观察结果是16通道模型比8通道模型更好。通过增加层数,8-2-64模型比8-1-64模型获得了更大的收益。但是,当使用16通道模型增加层数时,我们无法观察到额外的好处。
作为总结,图7绘制了最佳三个系统的ROC曲线。我们可以看到,GRU和CRNN在很大程度上优于LSTM,并且CRNN实现了最佳性能。

 

 

4。结论
在本文中,我们提出了一种基于注意力的端到端模型,用于小足迹关键词发现。 与Deep KWS系统相比,基于注意力的系统具有出色的性能。 我们的系统由两个主要子模块组成:编码器和注意机制。 我们探索了编码器架构,包括LSTM,GRU和CRNN。 实验表明,GRU比LSTM更受青睐,CRNN可获得最佳性能。 我们还探讨了两种注意力机制:平均注意力和柔和注意力。 我们的结果表明,软注意力比平均注意力具有更好的性能。 通过约84K的参数,我们的端到端系统最终以1.0 FA /小时的速度达到1.02%的FRR。

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值