Attention-based End-to-End Models for Small-Footprint Keyword Spotting基于注意的小脚印关键字点对点模型

Abstract

在本文中，我们提出了一种基于注意力的端到端神经网络方法，用于小足迹关键词发现（KWS），旨在简化构建生产质量的KWS系统的流程。我们的模型包括一个编码器和一个注意机制。编码器使用RNN将输入信号转换为高级表示。然后，注意力机制对编码器特征进行加权，并生成固定长度的向量。最后，通过线性变换和softmax函数，向量成为用于关键字检测的得分。我们还评估了不同编码器架构（包括LSTM，GRU和CRNN）的性能。在现实世界中唤醒数据的实验表明，我们的方法在很大程度上优于最新的Deep KWS方法，并且CRNN实现了最佳性能。更具体地说，在约84K参数的情况下，我们的基于注意力的模型在每小时1.0次错误警报（FA）的情况下实现了1.02％的错误拒绝率（FRR）。
索引词：基于注意力的模型，端到端关键字识别，卷积神经网络，递归神经网络

1. Introduction

关键字发现（KWS）或口语检测（STD）是一项任务，用于检测音频流中的预定义关键字。具体而言，作为KWS的典型应用，唤醒单词检测已成为各种设备上必不可少的功能，以使用户拥有完全的免提体验。实用的设备上KWS模块必须以较低的误报率将误报率降至最低，以使其易于使用，同时将内存占用空间，等待时间和计算成本限制得尽可能小。
作为经典解决方案，基于大词汇量连续语音识别（LVCSR）的系统[1、2]被广泛用于KWS任务。尽管可以根据用户要求灵活地更改关键字，但是基于LVCSR的系统需要生成丰富的网格，并且关键字搜索需要大量的计算资源。这些系统通常被设计为搜索音频内容的大型数据库。已经提出了几种最近的尝试来降低计算成本，例如，使用基于端到端的声学模型[3，4]。但是这些模型仍然很大，因此不适用于小尺寸，低延迟的应用程序。 KWS的另一种经典技术是关键字/填充器隐马尔可夫模型（HMM）方法[5]，直到今天仍然具有很强的竞争力。 HMM分别针对关键字和非关键字音频片段进行训练。在运行时，维特比解码用于在解码图中搜索最佳路径，根据HMM拓扑的不同，这在计算上可能会非常昂贵。在这些方法中，最初使用高斯混合模型（GMM）对观察到的声学特征进行建模，但是
深度学习的进步，最近已经采用了深度神经网络（DNN）来代替具有改进性能的GMM [6]。一些研究用训练有联系者时间分类（CTC）标准的RNN模型或基于注意力的模型[8]代替了HMM，但是，这些研究仍在关键字/填充符框架下。
作为Google使用的占用空间小的方法，Deep KWS [9]最近引起了很多关注。在这种方法中，训练了一个简单的DNN以预测子关键字目标和填充词的帧级后验。当通过后处理方法产生的置信度得分超过阈值时，将检测到关键字。在不涉及HMM的情况下，该方法的性能优于关键字/填充HMM方法。此外，这种方法非常适合在占用空间小且延迟低的设备上运行，因为DNN的大小可以轻松控制并且不涉及图形搜索。后来，前馈DNN被功能更强大的网络所取代，例如卷积神经网络（CNN）[10]和递归神经网络（RNN）[11]，并有望得到改进。应该注意的是，尽管Deep KWS的框架非常简单，但仍然需要训练有素的声学模型来获得帧级对齐。
在本文中，我们旨在进一步简化构建具有生产质量的KWS的流程。具体来说，我们提出了一种基于注意力的端到端神经模型，用于小足迹关键词发现。通过端到端的说法，我们的意思是：（1）直接输出关键字检测的简单模型；（2）不涉及复杂的搜索；（3）无需事先对齐即可训练模型。我们的工作受到语音识别[12、13、14]，机器翻译[15]，文本摘要[16]和说话者验证[17]中最近使用的注意力模型成功的启发。在KWS中使用注意力机制是直观的：人们能够以“高分辨率”（例如，听众的名字）专注于音频流的某个区域，同时以“低分辨率”感知周围的音频，然后调整焦点随着时间的推移。
我们的端到端KWS模型由编码器和注意机制组成。编码器使用RNN将输入信号转换为高级表示。然后，注意机制对编码器特征进行加权，并生成固定长度的向量。最后，通过线性变换和softmax函数，向量成为用于关键字检测的得分。就端到端和小尺寸而言，最接近我们的方法是Kliegl等人提出的方法。 [18]，其中使用了卷积递归神经网络（CRNN）体系结构。但是，由其较长的解码窗口（T = 1.5秒）引入的延迟使该系统难以在实际应用中使用。

为了改进我们的端到端方法，我们进一步探索了编码器架构，包括LSTM [19]，GRU [20]和受[18]启发的CRNN。对真实唤醒数据的实验表明，我们的方法在很大程度上优于Deep KWS。 GRU比LSTM更受青睐，CRNN可以实现最佳性能。更具体地讲，仅使用约84K参数，基于CRNN的注意力模型就可以在每小时1.0错误警报（FA）的情况下达到1.02％的错误拒绝率（FRR）。

2. Attention-based KWS

2.1。端到端架构
我们建议在小字体关键词发现中使用基于注意力的端到端模型。如图1所示，端到端体系结构由两个主要子模块组成：编码器和注意机制。编码器从输入语音特征x =（x1，...，xT）得到更高级别的特征表示h =（h1，...，hT）：

具体而言，编码器通常是可以直接使用语音上下文信息的RNN。在我们的工作中，我们展示了不同的编码器结构，包括GRU，LSTM和CRNN。注意机制从特征表示中学习归一化权重αt∈[0，1]：

然后我们将定长向量c作为的加权平均值编码器输出h：

最后，我们通过线性变换生成概率分布形成和softmax函数：

2.2。注意机制
与人类听觉注意力类似，我们模型中的注意力机制会选择语音部分，而这些语音部分更可能包含关键字，而忽略了不相关的部分。我们调查平均注意力和轻微注意力。
平均关注度：Attend模型没有可训练的参数，并且将αt设置为T的平均值：

软注意力：这种注意力方法是从说话者验证中借用的[17]。与其他注意层相比，共享参数非线性注意被证明是有效的[17]。我们首先学习标量得分等：

然后我们使用这些标量计算归一化权重αt分数：

2.3。解码

如图1所示，与某些其他方法[9]不同，我们的端到端系统直接输出置信度评分，而无需进行后处理。与Deep KWS系统类似，当p（y = 1）超过预设阈值时，将触发我们的系统。在图2中的解码过程中，输入是语音特征的滑动窗口，其具有预设的长度并包含整个关键字。同时，采用了帧移位。我们系统中的一小部分参数导致占用内存少。对于滑动窗口，我们只需要向网络中馈入一帧即可进行计算，而其余帧已经在上一个滑动窗口中进行了计算。因此，我们的系统具有较低的计算成本。

3. Experiments

3.1。数据集
我们使用从Mi AI Speaker1收集的真实唤醒数据评估了建议的方法。唤醒词是四个音节的汉语普通话（“ xiao-ai-tong-xue”）。我们收集了〜188.9K个阴性样本（〜99.8h）和〜1007.4K个阴性样本（〜1581.8h）作为训练集。保留的验证集有〜9.9K个正例和〜53.0K个负例。测试数据集有〜28.8K个阴性示例（〜15.2h）和〜32.8K个阴性示例（〜37h）。每个音频帧都是基于40通道Mel-filterbank，25ms开窗和10ms帧偏移来计算的。然后将滤波器组特征转换为每通道能量归一化（PCEN）[21]梅尔谱图。

3.2。基准线
我们重新实现了Deep KWS系统[9]作为基线，在该系统中，网络预测了唤醒词和填充词中四个中国音节的后验。此处的“填充词”是指不包含关键字的所有语音。具体来说，我们采用了三种不同的网络，包括DNN，LSTM和GRU。为了进行票价比较，将网络配置设置为与建议的注意力模型具有相似的参数大小。前馈DNN模型具有3个隐藏层和每层64个隐藏节点，且具有线性线性校正（ReLU）非线性。使用具有15个左框架和5个右框架的输入窗口。 LSTM和GRU模型建立有2个隐藏层和每层64个隐藏节点。对于GRU KWS模型，最后的GRU层后面是具有ReLU非线性的完全连接层。 LSTM和GRU模型的输入中没有堆叠的框架。 Deep KWS的平滑窗口设置为20帧。在KWS模型训练之前，我们还使用约3000个小时的语音数据训练了基于TDNN的声学模型，以执行帧级对齐。

3.3。实验装置
在神经网络模型中，所有的权重矩阵均通过归一化初始化[22]进行初始化，并且偏差向量被初始化为0。我们使用ADAM [23]作为优化方法，同时降低了学习率。从1e-3收敛到1e-4。应用了梯度范数裁剪为1以及L2权重衰减1e-5。正训练样本的帧长为T = 1.9秒，可确保包括整个唤醒字。因此，在注意模型中，输入窗口已设置为189帧以覆盖唤醒字的长度。我们从否定示例集中随机选择了189个连续帧来训练注意力模型。在运行时，将滑动窗口设置为100帧，将帧移位设置为1。通过绘制FRR（每小时1.0 FA的运行阈值）来观察性能，同时绘制接收器工作曲线（ROC）。
3.4。注意机制的影响
从表1和图3，我们可以清楚地看到注意力模型的卓越性能。由于参数大小相似，因此建议的注意力模型在很大程度上优于Deep KWS系统。我们还注意到，在Deep KWS和注意力模型中，GRU均优于LSTM。毫不奇怪，基于软注意力的模型可以实现最佳性能。以每小时1.0 FA的速度运行时，GRU注意模型将FRR从6.38％（GRU Deep KWS）降低到1.93％，显着降低了误剔除率。
3.5。编码器架构的影响
我们进一步关注了编码器架构的影响。结果总结在表2，图4和图5中。从表2中，我们注意到较大的模型总是比较小的模型表现更好。观察LSTM模型，1-128 LSTM模型以1.0 FA /小时的FRR为2.99％获得了最佳性能。在图4中，以每小时较低的FA重叠1-128 LSTM模型和3-64 LSTM模型的ROC曲线。这意味着使LSTM网络更宽或更深可以达到相同的效果。然而，从图5可以看出，对于GRU而言，相同的结论并不成立。 1-128 GRU模型具有明显的优势3-64 GRU模型。换句话说，增加节点数可能比增加层数更有效。最终，1-128 GRU模型以1.0 FA /小时的速度达到1.49％的FRR。
3.6。添加卷积层
受[18]的启发，我们最终研究了添加con-
GRU注意模型中的卷积层为卷积
网络通常被用作提取不变特征的一种方式。对于
在基于CRNN注意的模型中，我们使用了一层CNN
有一个C（20×5）滤镜。我们探索了不同数量的输出1×2
通道和结果总结在表3和图6中。从表3中，我们可以看到添加卷积层可以进一步提高性能。我们使用84.1K参数在1.0 FA /小时的条件下实现了1.02％的最低FRR。另一个观察结果是16通道模型比8通道模型更好。通过增加层数，8-2-64模型比8-1-64模型获得了更大的收益。但是，当使用16通道模型增加层数时，我们无法观察到额外的好处。
作为总结，图7绘制了最佳三个系统的ROC曲线。我们可以看到，GRU和CRNN在很大程度上优于LSTM，并且CRNN实现了最佳性能。

4。结论
在本文中，我们提出了一种基于注意力的端到端模型，用于小足迹关键词发现。与Deep KWS系统相比，基于注意力的系统具有出色的性能。我们的系统由两个主要子模块组成：编码器和注意机制。我们探索了编码器架构，包括LSTM，GRU和CRNN。实验表明，GRU比LSTM更受青睐，CRNN可获得最佳性能。我们还探讨了两种注意力机制：平均注意力和柔和注意力。我们的结果表明，软注意力比平均注意力具有更好的性能。通过约84K的参数，我们的端到端系统最终以1.0 FA /小时的速度达到1.02％的FRR。