关键词检测任务调研(Keyword Spotting)(2)

本文探讨了在资源受限的关键词识别(KWS)系统中,卷积神经网络(CNN)相对于深度神经网络(DNN)的优势。研究发现,CNN在保持较低的乘法操作数或参数数量的同时,能显著降低错误拒绝率,提高了系统性能。实验对比了不同CNN架构,包括滤波器步幅和池化策略,揭示了在时间和频率上进行采样对于优化KWS性能的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

Convolutional neural networks for small-footprint keyword spotting

Abstract

Introduction

Keyword Spotting Task

CNN Architectures

Experimental Details


Convolutional neural networks for small-footprint keyword spotting

Sainath, T. and Carolina Parada. “Convolutional neural networks for small-footprint keyword spotting.” INTERSPEECH (2015). 

大家若参考该文章,请记得添加引用说明

Abstract

(1) cnn比起DNN参数少,性能好,

(2) 我们在工作中考虑两个不同的应用场景中要考虑的问题:

  • 一个我们限制KWS系统的乘法数,
  • 另一个我们限制参数的数量。

(3) 我们发现,与DNN相比,CNN架构的错误拒绝率( false reject rate)相对提高了27-44%,同时符合每个应用程序的约束条件。

Introduction

(1) 引入KS,其应用场景,目前的难点:它不断地监听特定的关键字来启动语音输入。此关键字定位(KWS)系统运行在移动设备上,因此必须具有较小的内存占用和较低的计算能力。目前谷歌[2]的KWS系统使用深度神经网络(DNN),它被训练来预测子关键字目标。

(2) 说明DNN比起传统方法的优势:

  • DNN已被证明优于关键字/填充隐马尔可夫模型系统(Keyword/Filler HMM),这是一种常用的关键字定位技术。
  • 此外,DNN在设备上运行具有吸引力,因为可以通过改变网络中的参数的数量来很容易地调整模型的大小。

 (3) 说明CNN比起DNN的优势:而卷积神经网络(CNNs)[3]在过去几年已经在声学建模中流行,在各种小词汇任务[4,5,6]中比dnn有所改进(提升性能且减小模型尺寸)。

  • 第一点:DNN网络忽略输入的拓扑性,即,输入可以以任何(固定的)的顺序呈现,而不影响网络[3]的性能。然而,语音的光谱表示在时间和频率上具有很强的相关性,CNN通过在输入空间局部区域共享的权值,使得cnns可以modeling局部相关性,在其他领域[7]被证明是有益的。
  • 第二点:dnn并没有明确设计来模拟语音信号内的translational方差,这可能是由于不同的说话风格[3]而存在的。更具体地说,不同的说话风格会导致共振峰在频域中被移动。足够大小的DNN其实也可以捕获这种特性,但是需要足够大的训练样本与模型结构。cnn通过平均不同局部时间和频率区域的hidden units的输出来捕获参数少得多的平移不变性。

 (4) 本文解决 parameters and multiplies问题的方式:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值