关键词检测任务调研(Keyword Spotting)(3)

目录

说明:

Convolutional Recurrent Neural Networks for Small-Footprint Keyword Spotting

Temporal Convolution for Real-time Keyword Spotting on Mobile Devices 

Introduction

Network Architecture

Multi-scale Convolution for Robust Keyword Spotting 

Introduction

Method 

Multitask Learning of Deep Neural Network-Based Keyword Spotting for IoT Devices


说明:

本文是一些论文的简要,想了解具体内容可以下载原文进行阅读,若是读者对下面文章进行参考,请进行规范引用。

Convolutional Recurrent Neural Networks for Small-Footprint Keyword Spotting

Arik, Sercan Ö. et al. “Convolutional Recurrent Neural Networks for Small-Footprint Keyword Spotting.” ArXiv abs/1703.05390 (2017): n. pag. 

(1)A potential drawback of CNNs is that they cannot model the context over the entire frame without wide filters or great depth.     cnn的一个潜在缺点是,如果没有宽滤波器或大深度,它们就不能对整个框架的上下文进行建模。

(2)[9,10]的RNNs用的CTC loss,[2-6]DNN,CNN相关用的CE损失。但是,a high accuracy at a low FA rate could not be obtained,与dnn类似,rnn的一个潜在局限性是,建模是对输入特征进行的,而不学习连续的时间和频率步长之间的结构。

(3)最近,[11]提出了一种具有CTC损失的卷积递归神经网络(CRNN)架构。然而,尽管模型规模较大,与rnn相似,但在低FA率下仍无法获得较高的高精度。

(4)引出本文:

  • using CRNNs with CE loss for a small-footprint model, applied for a single keyword.
  • 我们的目标是结合cnn和rnn的优势,以及在训练期间应用的额外策略,以提高整体性能,同时保持一个小的占用内存。

Temporal Convolution for Real-time Keyword Spotting on Mobile Devices 

Choi, Seungwoo et al. “Temporal Convolution for Real-time Keyword Spotting on Mobile Devices.” INTERSPEECH (2019). 

Introduction

相关代码:https://github.com/hyperconnect/TC-ResNet

(1)  近年来,随着深度学习在各种认知任务中的成功,基于神经网络的方法在KWS中流行。[5,6,7,8,9,10],。特别是基于卷积神经网络(CNNs)的KWS研究显示了显著的准确性[6,7,8]。

(2) 大多CNN-based的方法都会将接收特征以二维形式输入CNNs,如梅尔倒谱系数(MFCC)。尽管CNN-based的方法有一定的准确性,但是需要相当多的计算。

(3) 由于现代cnn通常使用小内核,很难使用相对较浅的网络从低频和高频中捕获信息特征(图1b中的彩色框只覆盖有限的频率范围),假设一个天真地堆叠了n个3×3权重的卷积层和步幅为1,网络的感受只增长到2n+1。我们可以通过增加步幅采用池化注意力循环单元来缓解这个问题。然而,许多模型仍然需要大量的操作,即使我们应用这些方法,并且很难在移动设备上实时运行.

(4) [7]给出了整个网络所执行的乘法和加法的总数。Tang和Lin[8]报告了他们网络的乘数作为推理速度的替代。但是关注加法乘法次数只是实际应用性能的小头,忽略内存访问成本各种设备配备不同的优化操作,是造成这种差异的潜在来源。因此,我们专注于测量移动设备上的实际延迟。

(5) 引出本文:本文提出了一种用于移动设备上实时关键词检测的时间卷积神经网络,即TCResNet

  • 我们应用时间卷积,即沿时间维数的一维卷积,并将MFCC作为输入通道。该模型利用时间卷积的优势,提高了KWS移动模型的精度和延迟.
  • 贡献1:快速精确,实时。与目前最先进的CNN-based KWS相比,该模型速度提高了385倍,准确率提高了0.3%p。
  • 贡献2:我们发布了我们的KWS模型,以及最先进的基于CNN-based KWS模型[6,7,8]的实现,以及在移动设备上评估模型的完整基准工具。(代码实现以及评估工具
  • 贡献3:与二维卷积相比,时间卷积确实是导致降低计算和提高精度性能的原因。

Network Architecture

 (1) 时间卷积:

     1) MFCC作为输入(将原始语音转换为时频表示),并Assuming that stride is one and zero padding is applied to match the input and the output resolution,

  • [7][8]中用b中的样子做input tensor X,然而,由于现代cnn通常使用小内核,很难使用相对较浅的网络从低频和高频中捕获信息特征(图1b中的彩色框只覆盖有限的频率范围)
  • 为了实现快速准确的KWS,我们将二位的X,reshape成一维。
  • 我们的主要想法是将每帧MFCC作为一个时间序列数据,而不是一个强度或灰度图像,这是一种更自然的解释音频的方式。
  • 一维序列数据,每一个时间帧的特征表示为f。作为时间卷积的输入

   2) 这样做的优势:音频特征的大感受域


Multi-scale Convolution for Robust Keyword Spotting 

Yang, Chen et al. “Multi-Scale Convolution for Robust Keyword Spotting.” INTERSPEECH (2020). 

Introduction

(1) 传统上,KWS系统通常设置在keyword/filler模型[1,2]下。这些主要训练时间序列模型,如隐藏马尔可夫模型(HMM),以表征关键字和填充物,然后解码学习模型上的音频输入,以做出决策。

(2) 在[3]中,dnn被视为单词分类器,在预定义的关键字集中输出后验。

(3) [4]应用卷积神经网络(CNN)来取代DNN.  [4]:Convolutional Neural Networks for Small-footprint Keyword Spotting

(4) [5]和[6]使用residual connections and depthwise-separable designs改进了CNN。

(5 )[7]提出了一种具有联合cnn和rnn的端到端解决方案。[7]:Convolutional Recurrent Neural Networks for Small-Footprint Keyword Spotting

(6) [8]和[9]用一维卷积取代了cnn中的二维卷积。

(7) [8]和[10]使用注意机制和图卷积来捕获全局特征。

(8) [10]进一步使用1x1卷积法进行模型压缩。

许多最近的工作都具有一个特征:针对设备上的应用场景,致力于紧凑设计。

(9) 引出本文:在这项工作中,我们专注于设计健壮的、小占用空间的KWS。

  • 贡献1,我们通过应用深度可分离的卷积设计,为最近最先进的关键字定位点ResNet添加了另一个small-footprint设计,以相当的精度减少了4倍~20倍模型size;
  • 贡献2:其次,我们遵循多尺度分类[11][12]的想法,设计了一个分类器“头”集合,在不同的时间尺度、间隔和接收场宽度下汇集特征,提高了KWS对噪声和语音速率变化的鲁棒性。
  • 通过在谷歌命令数据集[13]上进行的大量实验,验证了这些方法的有效性。

Method 

(1) 我们考虑从一个小的预定义的集合中发现多个短关键字的设置。输入一秒的数据段,。每个数据段最多只包含一个关键字。如果段包含关键字,则输出正确的关键字ID,如果没有关键字,则输出“non_keyword”。

(2) 特征处理得到KWS系统的输入:

  • 以0.5秒间隔移动,从1秒窗口的连续音频流中提取固定长度的音频段。
  • 每个频段通过一个20Hz/4kHz的频带通滤波器,
  • 然后进行语音活动检测(VAD)来测试语音的存在。
  • VAD后的语音材料被分成30ms帧。以10ms帧位移。
  • 计算了所有帧的40维MFCC特征(MFCC13+Δ+ΔΔ+能量),并堆叠成二维图像

Multitask Learning of Deep Neural Network-Based Keyword Spotting for IoT Devices

笔者还仔细阅读了Multitask Learning of Deep Neural Network-Based Keyword Spotting for IoT Devices,由于笔记手写在本子上,就没在这专门总结,大家有兴趣去可以去阅读,基于多任务的KWS方法也是不错的方向。

Leem, Seong-Gyun et al. “Multitask Learning of Deep Neural Network-Based Keyword Spotting for IoT Devices.” IEEE Transactions on Consumer Electronics 65 (2019): 188-194.

论文简介:

  • 传统的基于DNN 的关键字定位方法不能轻易地改变目标关键字
  • 在本文中,我 们提出了一种基于DNN的关键字定位系统,它可以实时改变关键字(在单个关键字定位系统中动态添加或删除),并利用三声素和单声素声学模 型,以降低计算复杂度,提高泛化性能。
  • 我们建议应用 一个多任务学习框架,利用一个单一的DNN ,同时估计特定输入语音信号的三声素和单声素的可能性。
  • 在词汇无关的关键字定位系统中, 使用多任务学习基于DNN- hmm的关键字定位是一种有效的方法

这里插两张图:

 

 

 

 

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值