Kunze, Julius, et al. “Transfer learning for speech recognition on a budget.” arXiv preprint arXiv:1706.00290 (2017).
大家好,本次我要分享的论文是Transfer Learning for Speech Recognition on a Budget
我将主要从这几个方面讲述这篇论文
首先是论文的主要内容
自动语音识别 (ASR) 系统的端到端训练需要大量的数据和计算资源,在GPU的内存和吞吐量,以及训练数据受限的情况下,这篇论文探索了一个基于模型自适应的迁移学习方法。
论文中作者进行了几个系统的实验,将最初为英语ASR训练的Wav2Letter卷积神经网络应用到德语中。结果表明,这种技术可以更快地在消费级资源(译注:意为低端GPU和计算机等设备)上进行训练,同时只需要较少的训练数据,就可以达到相同的精度,从而降低了用其他语言训练ASR模型的成本。对模型网络权值进行的小调整足以获得良好的性能,尤其是对于模型中间的层来说。
论文中提出了一种结合两种方法来解决这些缺点的方法。首先,作者使用一个比较简单的模型,它资源占用较低。其次,还应用了一种称为迁移学习的技术来显著减少在ASR任务中获得有竞争力的准确度所需的非英语的训练数据量。作者以一个基于CNN的端到端模型为例,研究了这种方法的有效性。特别是,作者冻结了其较低层次的参数,同时在比英语语料库更小的德语语料库上重新训练上层的参数。
这种方法将产生以下三个改进:
与从零起步的训练相比,利用从英语模式中所学的参数进行训练,将缩短训练时间。
使用迁移学习训练的模型比仅使用德语的模型,可以实用更少的数据量,以获得相等的评分。
冻结的层越多,在训练期间需要进行反向传播的层就越少。因此,我们期望看到的是GPU内存使用的减少,因为我们不必让所有层保持渐变。