wav2letter++简介:Facebook深度学习语音识别系统

Facebook AI研究中心推出wav2letter++,一个基于全卷积神经网络的高性能开源语音识别工具箱。该框架挑战了传统递归神经网络在语音识别中的主导地位,提供更高效、更具竞争力的解决方案,且能在少量训练数据下达到良好性能。wav2letter++的核心设计注重高效训练、模型扩展和从研究到生产的平滑过渡。
摘要由CSDN通过智能技术生成

语音识别系统是深度学习生态中发展最成熟的领域之一。当前这一代的语音识别模型基本都是基于递归神经网络(Recurrent Neural Network)对声学和语言模型进行建模,以及用于知识构建的计算密集的特征提取流水线。虽然基于RNN的技术已经在语音识别任务中得到验证,但训练RNN网络所需要的大量数据和计算能力已经超出了大多数机构的能力范围。最近,Facebook的AI研究中心(FAIR)发表的一个研究论文,提出了一种新的单纯基于卷积神经网络(Convolutional Neural Network)的语音识别技术,而且提供了开源的实现wav2letter++,一个完全基于卷积模型的高性能的语音识别工具箱。

在深度学习领域,在语音识别系统中使用CNN并不新鲜,但是大部分应用都局限于特定的任务,而且通常与RNN结合起来构成完整的系统。但是当前CNN领域的研究表明只使用卷积神经网络也有潜力在语音识别的所有领域达到最高水平,例如机器翻译、存在长程依赖的语言模型的语音合成等。CNN模型与其他技术的最大优势在于它不需要额外而且昂贵的特征提取计算就可以天然地对诸如MFCC之类的标准特征计算进行建模。因此长久以来,深度学习社区一直都期待着在语音识别工作流中完全使用CNN,因为这要比目前的基于RNN的模型更高效也更富有竞争力。

全卷积语音识别架构

经过很多次实验,FAIR团队决定依赖于一个整合多个不同CNN层的架构来实现端对端的语音识别流水线,从音频波形处理到语言转录。该架构基于下图所示的散射模型:

模型的第一层CNN用来处理原始音频并提取一些关键特征;接

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值