目录
Convolutional neural networks for small-footprint keyword spotting
Convolutional neural networks for small-footprint keyword spotting
Sainath, T. and Carolina Parada. “Convolutional neural networks for small-footprint keyword spotting.” INTERSPEECH (2015).
大家若参考该文章,请记得添加引用说明
Abstract
(1) cnn比起DNN参数少,性能好,
(2) 我们在工作中考虑两个不同的应用场景中要考虑的问题:
- 一个我们限制KWS系统的乘法数,
- 另一个我们限制参数的数量。
(3) 我们发现,与DNN相比,CNN架构的错误拒绝率( false reject rate)相对提高了27-44%,同时符合每个应用程序的约束条件。
Introduction
(1) 引入KS,其应用场景,目前的难点:它不断地监听特定的关键字来启动语音输入。此关键字定位(KWS)系统运行在移动设备上,因此必须具有较小的内存占用和较低的计算能力。目前谷歌[2]的KWS系统使用深度神经网络(DNN),它被训练来预测子关键字目标。
(2) 说明DNN比起传统方法的优势:
- DNN已被证明优于关键字/填充隐马尔可夫模型系统(Keyword/Filler HMM),这是一种常用的关键字定位技术。
- 此外,DNN在设备上运行具有吸引力,因为可以通过改变网络中的参数的数量来很容易地调整模型的大小。
(3) 说明CNN比起DNN的优势:而卷积神经网络(CNNs)[3]在过去几年已经在声学建模中流行,在各种小词汇任务[4,5,6]中比dnn有所改进(提升性能且减小模型尺寸)。
- 第一点:DNN网络忽略输入的拓扑性,即,输入可以以任何(固定的)的顺序呈现,而不影响网络[3]的性能。然而,语音的光谱表示在时间和频率上具有很强的相关性,CNN通过在输入空间局部区域共享的权值,使得cnns可以modeling局部相关性,在其他领域[7]被证明是有益的。
- 第二点:dnn并没有明确设计来模拟语音信号内的translational方差,这可能是由于不同的说话风格[3]而存在的。更具体地说,不同的说话风格会导致共振峰在频域中被移动。足够大小的DNN其实也可以捕获这种特性,但是需要足够大的训练样本与模型结构。cnn通过平均不同局部时间和频率区域的hidden units的输出来捕获参数少得多的平移不变性。
(4) 本文解决 parameters and multiplies问题的方式: