原标题:用于语音识别的数据增强
Data Augmentation for Speech Recognition
作者 | Edward Ma
翻译 | 类更里、敬爱的勇哥 编辑 | 咩咩咩鱼、唐里
https://towardsdatascience.com/data-augmentation-for-speech-recognition-e7c607482e78
来自 Unsplash 的摄影:Edward Ma
语音识别的目标是把语音转换成文本,这项技术在我们生活中应用很广泛。比如说谷歌语音助手和亚马逊的 Alexa ,就是把我们的声音作为输入然后转换成文本,来理解我们的意图。
语音识别和其他NLP问题一样,面临的核心挑战之一是缺少足够的训练数据。导致的后果就是过拟合以及很难解决未见的数据。Google AI Resident 团队通过做几种数据增强的方式来解决这个问题。
本文将会讨论关于 SpecAugment:一种应用于自动语音识别的简单的数据增强方法(Park et al.,2019),将涵盖以下几个方面:
数据
结构
实验
数据
为了处理数据,波形音频转换成声谱图,然后输入神经网络中进行输出。做数据扩充的传统方式通常是应用在波形上的,Park 等人则是直接应用在声谱图上。