Mutli-task Learning with Alignment Loss for Far-field Small-Footprint Keyword Spotting论文阅读

用于远场唤醒词识别的带对齐损失的多任务学习方案

摘要

实际应用中,远场环境是经常遇到的,并且它会由于房间混响和各种噪声而导致性能下降。

基线方法:卷积神经网络(使用远场和近场语音的混合数据进行训练)

介绍

KWS也称为唤醒词检测,是一项在连续语音信号中检测预定义关键字出现的任务。

要求

  • 唤醒词检测要有较小的内存和计算成本
  • 在复杂环境(噪声或远场环境)中有较高的检测精度和鲁棒性

方法

  • 隐马尔科夫模型(HMM),被用来构造关键字模型和填充/背景模型。
  • 高斯混合模型
  • 深度神经网络
  • 延迟神经网络(TDNN)

近年来,更多的研究关注DNN的关键词识别系统,其性能优于传统方法。

然而,在许多实际应用中,KWS系统的性能往往在低信噪比和远场条件下下降。

本文提出了一种基于KWS对齐损失的多任务学习训练方案。

基于KWS系统的卷积神经网络

在这里插入图片描述
三个主要组成部分:特征提取,网络预测和置信度计算。

  • 卷积核大小为(3,3),步长为(1,1)
  • 最大池化核大小(2,2)
  • 最后加入两个全连接层和softmax损失来进行预测

在训练处理之后,声学特征序列被映射为后验概率序列。

  • 定义一个滑动窗口来计算分数
  • 用x={ x1,x2,x3,...xTsx_1,x_2,x_3,...x_{Ts}x1,x<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值