关键词检测任务调研（Keyword Spotting）（2）

最新推荐文章于 2022-10-10 21:27:40 发布

LJJ_12

最新推荐文章于 2022-10-10 21:27:40 发布

阅读量1.5k

点赞数 3

分类专栏：关键词检测任务论文阅读总结文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LJJ_12/article/details/120079866

版权

本文探讨了在资源受限的关键词识别（KWS）系统中，卷积神经网络（CNN）相对于深度神经网络（DNN）的优势。研究发现，CNN在保持较低的乘法操作数或参数数量的同时，能显著降低错误拒绝率，提高了系统性能。实验对比了不同CNN架构，包括滤波器步幅和池化策略，揭示了在时间和频率上进行采样对于优化KWS性能的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

Convolutional neural networks for small-footprint keyword spotting

Keyword Spotting Task

CNN Architectures

Experimental Details

Convolutional neural networks for small-footprint keyword spotting

Sainath, T. and Carolina Parada. “Convolutional neural networks for small-footprint keyword spotting.” INTERSPEECH (2015).

大家若参考该文章，请记得添加引用说明

Abstract

(1) cnn比起DNN参数少，性能好，

(2) 我们在工作中考虑两个不同的应用场景中要考虑的问题：

一个我们限制KWS系统的乘法数，
另一个我们限制参数的数量。

(3) 我们发现，与DNN相比，CNN架构的错误拒绝率（ false reject rate）相对提高了27-44%，同时符合每个应用程序的约束条件。

Introduction

(1) 引入KS，其应用场景，目前的难点：它不断地监听特定的关键字来启动语音输入。此关键字定位(KWS)系统运行在移动设备上，因此必须具有较小的内存占用和较低的计算能力。目前谷歌[2]的KWS系统使用深度神经网络(DNN)，它被训练来预测子关键字目标。

(2) 说明DNN比起传统方法的优势：

DNN已被证明优于关键字/填充隐马尔可夫模型系统（Keyword/Filler HMM），这是一种常用的关键字定位技术。
此外，DNN在设备上运行具有吸引力，因为可以通过改变网络中的参数的数量来很容易地调整模型的大小。

(3) 说明CNN比起DNN的优势：而卷积神经网络(CNNs)[3]在过去几年已经在声学建模中流行，在各种小词汇任务[4,5,6]中比dnn有所改进（提升性能且减小模型尺寸）。

第一点：DNN网络忽略输入的拓扑性，即，输入可以以任何（固定的）的顺序呈现，而不影响网络[3]的性能。然而，语音的光谱表示在时间和频率上具有很强的相关性，CNN通过在输入空间局部区域共享的权值，使得cnns可以modeling局部相关性，在其他领域[7]被证明是有益的。
第二点：dnn并没有明确设计来模拟语音信号内的translational方差，这可能是由于不同的说话风格[3]而存在的。更具体地说，不同的说话风格会导致共振峰在频域中被移动。足够大小的DNN其实也可以捕获这种特性，但是需要足够大的训练样本与模型结构。cnn通过平均不同局部时间和频率区域的hidden units的输出来捕获参数少得多的平移不变性。

(4) 本文解决 parameters and multiplies问题的方式：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。