端到端的语音识别

传统的语音识别系统中,往往包含多个独立的模块,通常有如下模块:

特征提取模块,从输入的语音信号中提取特征,用于声学模型的建模以及解码过程,以MFCC为例,通过分帧、逐帧加窗、预加重、FFT计算功率谱、生成Mel Banks计算滤波输出、Log求倒谱、DCT离散余弦变换得到MFCC特征;

声学模型,通常通过对词,音节、音素等基本的声学单元进行建模,生成声学模型,主要面临两个问题特征向量序列的可变长和音频信号的丰富变化性,其中可变长特征向量序列问题在学术上通常有动态时间规划(Dynamic Time Warping, DTW)和隐马尔科夫模型(Hidden Markov Model, HMM)方法来解决,而音频信号的丰富变化性是由说话人的各种复杂特性或者说话风格与语速、环境噪声、信道干扰、方言差异等因素引起的,声学模型需要足够的鲁棒性来处理以上的情况;

语言模型,语言模型对系统所需识别的语言在单词层面上进行建模,判断出那个词是最适合出现在当前句中,当前采用基于统计的N元语法(N-gram)模型的相对较多,就我个人使用而言效果还是不错的,ngram语言模型采用了n元依赖假设,即当前词的概率,只依赖于前n-1个词,

不考虑平滑的问题,模型概率估计使用最大似然概率:

  • 5
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值