(IS 19)Low-Dimensional Bottleneck Features for On-Device Continuous Speech Recognition

会议:INTERSPEECH 2019
论文:Low-Dimensional Bottleneck Features for On-Device Continuous Speech Recognition
作者:David B. Ramsay, Kevin Kilgour, Dominik Roblek, Matthew Sharifi

Abstract

低功耗数字信号处理器(DSP)通常具有非常有限的用于缓存数据的内存。 在本文中,我们开发了可以在DSP上运行的高效瓶颈特征(BNF)提取器,并重新训练了基线大词汇量连续语音识别(LVCSR)系统,以仅以最小的准确性损失使用这些BNF。 小型BNF允许DSP芯片在主应用处理器挂起时缓存更多音频功能,从而减少了总体电池使用量。 我们提出的系统能够将标准的定点DSP频谱特征的占用面积减少10倍,而不会降低字错误率(WER),并且能够减少64倍,而WER的相对增加仅为5.8%。

6. Conclusion

我们的分析表明,时间压缩最初是模型中的限制因素,而40ms的压缩步长似乎是高精度模型的限制。我们发现内核维数和激活函数对我们的结果影响很小,并且每时间步使用8-12维BNF进行4位量化的效果最佳。

根据这些发现,我们能够设计出几种模型,这些模型可以有效地压缩DSP上的音频功能,并可以将它们缓存在大大减少的内存空间中。我们设计了一个模型,可以成功地将原始DSP QM功能压缩到大小的1/10,而不会损失任何精度。随着我们进一步压缩特征,我们发现WER中的拐点大约为1kbps。

虽然我们设计的模型可以将主处理器唤醒之间的间隔增加10倍至64倍,但需要经验数据才能了解对电池消耗的完整影响。我们的某些模型在注意力/解码器中需要稍微更多的计算(由于减少了时间压缩),仅此一项可能会对电池寿命产生不利影响。一旦对它们进行现场测试,并在嘈杂的语音条件下进行表征,就应该进行进一步的调谐。

这些BNF对其他压缩语音模型可能有用,并且端到端训练范例虽然很费时,但却为DSP上压缩提供了一种最佳方法。我们希望此体系结构在便携式应用中被采用为语音压缩的标准技术。

1. Introduction

大词汇量连续语音识别(LVCSR)可用于提取有关用户兴趣,意图和状态的丰富上下文。如果在移动设备上运行,则有可能彻底改变与之交互的设备上服务的质量。为了使其成为现实,需要硬件级别的优化来保持便携式设备的电池寿命。

在本文中,我们提出了一种新的LVCSR模型架构,该架构利用了低功耗,定点,始终在线的数字信号处理器(DSP)来显着降低功耗。我们的目标是使用DSP将输入的语音最佳地压缩为瓶颈特征(BNF)表示形式,并尽可能长时间地对其进行缓存。通过增加缓存的输入量,我们降低了设备主处理器的唤醒频率,该频率用于完成推断。

我们从最先进的端到端自动语音识别(ASR)模型开始进行聆听,参加,拼写(LAS)模型,然后将其编码器有效地分配到DSP和主处理器中。过去已经成功地利用DSP和主处理器上的硬件优化来为类似的低功耗服务缓存功能[1],尽管这是第一次使用DSP在主要推理模型中计算初始层。 。这大大增加了我们可以缓存的音频量,而对模型的整体WER影响最小。此外,作为一种纯粹的设备上模型,此设计可保护用户隐私以及电池寿命。在功率受限的情况下,拓扑结构是迈向实用LVCSR的重要一步。

2. Related Work

完全端到端的LVCSR成为了最新技术[2],其性能甚至甚至超过了标准连接主义时间分类[3]模型的性能。这些端到端模型的核心架构称为Listen,Attend和Spell [4],包含三个主要子图-编码器,注意力机制和解码器。自2015年提出建议以来,已经进行了大量工作来优化这些模型以用于设备上[5],[6],包括权重矩阵分解,修剪和模型蒸馏。由于这些改进,现在可以在移动设备的核心处理器上运行最新的LVCSR模型(高功耗)。

对于早于LAS架构的基于传统隐马尔可夫模型(HMM)的系统,神经网络(NN)已被大量用作传统ASR声学模型的一部分。 Vesely`等。 [7]表明,在这种设置下,卷积瓶颈压缩可以提高系统性能。通常,这些压缩的表示形式与较小的时间窗口功能串联在一起以提供“上下文”。

此外,基于HMM的小型关键字搜索器已在DSP和主处理器上成功进行了优化。 Shah等。 [8]提出了一种模型,该模型引入了5位和6位权重量化以减少内存占用,而不会显着降低精度。尽管这些模型具有不同的体系结构和应用程序,但是它们使用卷积瓶颈功能和定点网络量化为我们的体系结构提供了信息。

Shah [8]和Gfeller[1]引入了定点DSP和主处理器的分离,该处理器由功耗优化驱动。在DSP上运行的量化的,两阶段的,可分离的卷积层构成其音乐检测器的基础。我们在DSP实现中使用相同的层结构。

前面提到的方法并没有尝试在缓存之前压缩音频功能,但是在文献中还有其他关于功能缓存和节能之间的折衷分析。在Priyantha等人 [9]和Priyantha [10],由于计步器应用程序将数据缓存的时间延长了50倍,因此经验功耗从700mW降低到25mW。 Gfeller等人的测量。 [1]指出,推理时间的全部电费的25%50%是由于固定的唤醒和睡眠开销所致。我们的目标是显着降低这种固定电源成本。

3. Feature Substitution

Chiu等人报道了最新的研究成果 [2]具有非常大的专有语料库。在本文中,我们使用Librispeech 100语料库来训练我们的模型[11]。 Chiu等。 [2]报告的WER为4.1%,包含超过12,500小时的培训数据;在100小时的Librispeech数据上训练的同一模型给出的WER为21.8%,我们将其用作所有进一步评估的基准。

Chiu等人的模型。 [2]能够使用每10ms在25ms窗口中采样的80维,32位浮点mel频谱音频功能在电话上运行。这些功能捕获了7.8kHz的最大频率,并堆叠了增量和双增量功能,从而在每个时间步长产生了80 x 3的输入向量。我们将这些功能替换为紧凑,易于计算的量化mel功能(QM功能),目前已被DSP上运行的其他服务使用。

QM功能是基于log-mel的,具有16位定点表示形式。我们使用默认的窄带频率表示,仅在32个bin上捕获高达3.8Hz的信号。这种选择在类似优化的过去系统中是有效的[1]。我们通过简单地使用较少的log-mel箱来测试减少带宽的效果。采样率和窗口大小在测试输入功能之间是恒定的,对于每种情况,我们都训练一个端到端模型。表1列出了使用不同的输入表示来训练最先进的LAS模型的结果,这些模型可以计算并缓存在DSP上。
在这里插入图片描述
结果表明,基线模型(其功能先前未进行优化)具有大量冗余的输入表示,在增量堆叠之后需要原始音频带宽的三倍。我们能够在不严重影响模型的WER的情况下,大幅降低输入带宽(并扩展为初始LAS层中的计算量)。

相对于将尺寸增加3倍,增量和双增量特征堆叠不会产生很大的影响。因此,我们将以标准的32bin QM功能输入作为进一步探索的起点。尽管我们看到较小的原始特征表示会在带宽和WER之间增加取舍,但我们将使用完整的32bin QM功能作为压缩瓶颈层的输入,以尝试保留WER,同时更大幅度地减少带宽。

4. Bottleneck Feature Extraction

我们的模型使用了Gfeller等人概述的卷积结构。 [1]。单层的结构如图1所示。这些简单,可分离的卷积层已针对DSP进行了优化。除了最少的计算,所有层权重和中间表示都被量化为8位。第二次,一维可分离卷积之后包括32位偏差,批量归一化[13]和受限线性单位(ReLU)激活函数。
在这里插入图片描述
为了探索瓶颈架构的空间,我们沿着以下轴对这种架构进行了参数化:输出尺寸大小,输出量化级别,卷积跨度(及时),内核大小以及瓶颈网络中的层数。我们的尺寸/量化参数仅在最终BNF层的第二个可分离卷积步骤的输出中更改通道数和位深度;另一方面,内核步幅和大小的参数控制着第一个可分离的卷积内核,并在所有瓶颈层步幅。

其中的前三个(维度,量化和跨度)有可能减小所产生瓶颈的带宽,而内核大小和层深度仅影响所产生模型的内存和计算要求。这些带宽减少技术引入的表示形式变化迫使我们修改LAS编码器的初始两个卷积层,它们通常将3x3时频内核和2的步幅应用于其输入。由于我们扁平化和修改后的通道轴不再保留频率关系,因此我们将这些层修改为(默认情况下)具有3x1时间内核。我们还改变了初始LAS编码器层的数量,并在分析中大步前进。

5. Results

初始结果基于冻结瓶颈(BN)提取器和编码器层参数,并随时间更改一个参数。这项分析显示,根据McNemar统计检验,BN核粒大小(在1到10范围内)的统计学意义不明显[14]。激活功能比较在默认配置中支持ReLU,但是在高级别的量化/压缩情况下,身份和ReLU激活功能之间没有差异。

当增加BN步幅而没有同时减小编码器步幅时,显然存在性能损失。我们假设模型已经在时间维度上得到了最佳压缩(原始模型的时间步长为10ms,通过两个步长(两个步长),每40ms产生一个编码帧)。没有明显依赖于编码器的深度。

在图2中,我们看到了相对于32维16位QM功能在不同压缩率下改变BNF输出尺寸和量化级别的结果。 4位量化和8-12个输出尺寸的量化在整个压缩级别上表现最佳。
在这里插入图片描述

表2中收集了性能最好的模型。除了1/64带宽模型外,这些模型中的每一个在BNF提取器中都有一个隐藏层,在瓶颈层中有两个跨步(除了1/64带宽模型)。 / 10带宽模型。所有模型的输出量化深度为4位,内核为4,输出维数为8至16个通道。他们在编码器中使用步幅为1的单卷积层(1/16和1/32恒定时间压缩模型的步幅为2除外)。
在这里插入图片描述

我们优化的具有单个BNF层的4.8kbps模型实际上优于标准QM功能模型(运行速度为51.2kbps)。与原始未优化模型相比,特征带宽减少了160倍,WER增加了0.6%。我们能够继续越来越多地压缩BNF,以使WER略有增加。我们提出的系统能够将标准定点DSP频谱特征的足迹减少64倍,从而使WER相对增加5.8%。与原始浮点模型相比,这代表960倍的特征压缩,WER增加了6.6%。性能最佳的模型在〜1/84(0.6kbps)和1/128(0.4kbps)处分别收敛到30.36%和36.59%的WER值,这代表了性能的下降(图3)。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值