基于pytorch语音识别_[论文分享]迁移学习实现基于预算的语音识别

本文介绍了如何运用迁移学习在有限资源下提高基于PyTorch的语音识别效率。通过将预训练的Wav2Letter CNN模型应用于德语ASR,论文表明,这种方法可以减少训练时间、降低GPU内存需求,并减少所需训练数据量。实验结果显示,仅调整模型的上层参数即可达到与从零训练相当的精度,尤其在冻结中间层后,模型对新语言的适应性增强,同时减少了内存占用。
摘要由CSDN通过智能技术生成
Kunze, Julius, et al. “Transfer learning for speech recognition on a budget.”  arXiv preprint arXiv:1706.00290  (2017).

d006088be07e804bc4263bd6e801b918.png

大家好,本次我要分享的论文是Transfer Learning for Speech Recognition on a Budget

5cd34a52f09a7219e4d96bc7e5bc74cd.png

我将主要从这几个方面讲述这篇论文

f89328166c03f7a39ad543a08bfee039.png

首先是论文的主要内容

3614d88f3632c74bf0493dac126fc114.png

自动语音识别 (ASR) 系统的端到端训练需要大量的数据和计算资源,在GPU的内存和吞吐量,以及训练数据受限的情况下,这篇论文探索了一个基于模型自适应的迁移学习方法。

论文中作者进行了几个系统的实验,将最初为英语ASR训练的Wav2Letter卷积神经网络应用到德语中。结果表明,这种技术可以更快地在消费级资源(译注:意为低端GPU和计算机等设备)上进行训练,同时只需要较少的训练数据,就可以达到相同的精度,从而降低了用其他语言训练ASR模型的成本。对模型网络权值进行的小调整足以获得良好的性能,尤其是对于模型中间的层来说。

论文中提出了一种结合两种方法来解决这些缺点的方法。首先,作者使用一个比较简单的模型,它资源占用较低。其次,还应用了一种称为迁移学习的技术来显著减少在ASR任务中获得有竞争力的准确度所需的非英语的训练数据量。作者以一个基于CNN的端到端模型为例,研究了这种方法的有效性。特别是,作者冻结了其较低层次的参数,同时在比英语语料库更小的德语语料库上重新训练上层的参数。

这种方法将产生以下三个改进:

  • 与从零起步的训练相比,利用从英语模式中所学的参数进行训练,将缩短训练时间。

  • 使用迁移学习训练的模型比仅使用德语的模型,可以实用更少的数据量,以获得相等的评分。

  • 冻结的层越多,在训练期间需要进行反向传播的层就越少。因此,我们期望看到的是GPU内存使用的减少,因为我们不必让所有层保持渐变。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值