增强自动语音识别的新方法 将语音数据增强视为视觉

Google AI研究团队发布用于自动语音识别的数据增强新方法SpecAugment,该新方法是将语音数据增强视为视觉的问题,而不是语音的问题,因此,Google并不用传统数据增强的方式,针对语音音波输入数据增强,SpecAugment是直接对声学音谱图(spectrogram)输入数据进行增强,Google指出,这个方法是个简单又便宜的方法,此外,也不需要额外的数据,同时还能有效地改善自动语音识别模型的效能。

自动语音识别是将语音输入转为文字的过程,也因为深度神经网络的进展,语音识别技术应用在许多现代设备和产品中,像是Google语音助理、Google Home智能音响和YouTube,但是在开发以深度学习为基础的语音识别系统时,还是有许多重要的挑战要解决,其中一项含有很多参数的语音识别模型挑战,就是会有训练数据过度学习(overfit)的问题,若训练数据集不够广泛,模型很难处理未识别过的数据。

在缺乏足够训练样本的情况下,可以透过资料增强的方法,来增加有效训练数据,这个方法有助于大幅提升图像分类领域的深度网络表现,一般来说,在语音识别的sbf胜博案例中,数据增强的方式是靠着改变声音音波,像是加快、减缓语音速度,或是加入背景噪音,来使得数据集有效地变大,让神经网络模型学习更多相关特征,来帮助模型变得更稳固、准确,不过,现有增强语音数据的传统方法会带来更多的运算成本,有时候还需要更多额外的数据。

传统的自动语音识别模型,在将数据输入网络模型之前,通常会将音波编译为视觉的代表值,像是声学音谱图,而训练数据增强工作通常是在音波转换为音谱图之前,但是,Google团队是直接针对音谱图的数据进行增强,并不是用音波数据,且因为SpecAugment方法是直接针对模型输入数据的特征进行增强,因此,可以在训练的过程中在在线执行,并不会显着地影响训练速度。

SpecAugment是在时间方向上,利用改变音谱图的方式来修改、屏蔽连续频率信道的区块和时间内的语句区块,这些增强工作能够帮神经网络模型,在时间方向上的分解、部分频率信息遗失和小片段语音输入的遗失等过程,变得更加稳固。

为了测试SpecAugment方法,Google用语音数据集LibriSpeech来进行一些实验,再透过语音识别评估标准Word Error RateWER),比对模型生成的文字与目标文字的差异,实验执行的过程中,Google将所有的超参数固定,只有改变输入网络模型的数据,结果显示SpecAugment方法能够改善网络的效能,且不需要额外调整模型或是训练参数。

更重要的是,SpecAugment能够防止模型因为给予模型特定训练数据,而产生过度学习的问题,此外,用SpecAugment方法训练出来的模型,意外地超越先前所有方法的结果,甚至不需要语言模型的协助,语言模型在改善自动语音识别网络中,扮演重要的角色,但是通常语言模型和自动语音识别模型是分开训练的,且语言模型因为需要海量存储器,很难应用在小的装置中,像是手机,因此,该研究结果能够实际运用在训练模型中,并且不需要语言模型的协助。

转载于:https://my.oschina.net/u/3899617/blog/3041293

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值