语音识别系列2--基于WFST解码器

一、总述

解码器是ASR重要的组件之一,在传统的基于GMM-HMM/DNN-HMM混合系统中,解码器架起语言模型、声学模型、发音词典等知识源的桥梁,得到最终的识别结果,如图1所示。

随着深度学习技术的盛行,一系列ASR端到端系统、ASR-NLP端到端系统甚至ASR-NLP-TTS端到端系统被相继提出,解码器的作用在被一步步弱化,但是笔者认为,抛弃解码器,实现完全的端到端系统还有相当长的路要走。因为文本数据和语音数据之间存在着很大的数据差异,单靠一个网络很难有比较好的效果,使用语言模型,往往会使结果更佳。

解码器是一个系统性的东西,要写一个好的解码器,不仅需要扎实的工程实现能力,而且要对声学模型、语言模型、发音词典等知识有一定的理解。所以下面简单介绍ASR每个组件。

 

二、声学特征提取

利用声音信号的短时平稳性,对音频进行分帧,提取每帧的特征,ASR常用的特征有Fbank、MFCC等。当然也有一些利用DNN提取特征的方法,目前还不是主流方法。

图2为Fbank提取过程,图3为MFCC提取过程。

MFCC是在Fbank的基础上做DCT变换,去除特征维度之间的相关性,同时也可以起降维的

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值