增强自动语音识别的新方法将语音数据增强视为视觉

最新推荐文章于 2024-04-14 09:56:55 发布

chunmingying0152

最新推荐文章于 2024-04-14 09:56:55 发布

阅读量903

点赞数

文章标签：人工智能 rust

原文链接：https://my.oschina.net/u/3899617/blog/3041293

版权

Google AI研究团队发布用于自动语音识别的数据增强新方法SpecAugment，该新方法是将语音数据增强视为视觉的问题，而不是语音的问题，因此，Google并不用传统数据增强的方式，针对语音音波输入数据增强，SpecAugment是直接对声学音谱图（spectrogram）输入数据进行增强，Google指出，这个方法是个简单又便宜的方法，此外，也不需要额外的数据，同时还能有效地改善自动语音识别模型的效能。

自动语音识别是将语音输入转为文字的过程，也因为深度神经网络的进展，语音识别技术应用在许多现代设备和产品中，像是Google语音助理、Google Home智能音响和YouTube，但是在开发以深度学习为基础的语音识别系统时，还是有许多重要的挑战要解决，其中一项含有很多参数的语音识别模型挑战，就是会有训练数据过度学习（overfit）的问题，若训练数据集不够广泛，模型很难处理未识别过的数据。

在缺乏足够训练样本的情况下，可以透过资料增强的方法，来增加有效训练数据，这个方法有助于大幅提升图像分类领域的深度网络表现，一般来说，在语音识别的sbf胜博案例中，数据增强的方式是靠着改变声音音波，像是加快、减缓语音速度，或是加入背景噪音，来使得数据集有效地变大，让神经网络模型学习更多相关特征，来帮助模型变得更稳固、准确，不过，现有增强语音数据的传统方法会带来更多的运算成本，有时候还需要更多额外的数据。

传统的自动语音识别模型，在将数据输入网络模型之前，通常会将音波编译为视觉的代表值，像是声学音谱图，而训练数据增强工作通常是在音波转换为音谱图之前，但是，Google团队是直接针对音谱图的数据进行增强，并不是用音波数据，且因为SpecAugment方法是直接针对模型输入数据的特征进行增强，因此，可以在训练的过程中在在线执行，并不会显着地影响训练速度。

SpecAugment是在时间方向上，利用改变音谱图的方式来修改、屏蔽连续频率信道的区块和时间内的语句区块，这些增强工作能够帮神经网络模型，在时间方向上的分解、部分频率信息遗失和小片段语音输入的遗失等过程，变得更加稳固。

为了测试SpecAugment方法，Google用语音数据集LibriSpeech来进行一些实验，再透过语音识别评估标准Word Error Rate（WER），比对模型生成的文字与目标文字的差异，实验执行的过程中，Google将所有的超参数固定，只有改变输入网络模型的数据，结果显示SpecAugment方法能够改善网络的效能，且不需要额外调整模型或是训练参数。

更重要的是，SpecAugment能够防止模型因为给予模型特定训练数据，而产生过度学习的问题，此外，用SpecAugment方法训练出来的模型，意外地超越先前所有方法的结果，甚至不需要语言模型的协助，语言模型在改善自动语音识别网络中，扮演重要的角色，但是通常语言模型和自动语音识别模型是分开训练的，且语言模型因为需要海量存储器，很难应用在小的装置中，像是手机，因此，该研究结果能够实际运用在训练模型中，并且不需要语言模型的协助。

转载于:https://my.oschina.net/u/3899617/blog/3041293