语音识别实践

一、语音识别系统的基本结构

        语音识别系统主要由四部分所组成:信号处理和特征提取、声学模型(AM)、语言模型(LM)和解码搜索部分。

信号处理和特征提取:以音频信号为输入,通过消除噪声信道失真对语音进行增强,将信号从时域转化到频域,并为后面的声学模型提取合适的有代表性的特征向量。

声学模型:将声学和发音学(phonetics)的知识进行整合,以特征提取部分生成的特征为输入,并为可变长特征序列生成声学模型分数

语言模型:通过从训练语料(通常是文本形式)学习词之间的相互关系,来估计假设词序列的可能性, 又叫语言模型分数。

解码搜索:对给定的特征向量序列和若干假设词序列计算声学模型分数和语言模型分数,将总体输出分数最高的词序列当作识别结果。

1.1 声学模型存在的问题

        关于声学模型,有两个主要问题,分别是特征向量序列的可变长音频信号的丰富变化性。可变长特征向量序列的问题在学术上通常由如动态时间规整(dynamic time warping, DTW )方法和将隐马尔可夫模型(HMM) 方法来解决。 音频信号的丰富变化性(variable)是由说话人的各种复杂的特性(如性别、健康 状况或紧张程度)交织,或是说话风格与速度、环境噪声、周围人声(sidetalk )、信道扭曲(channel distortion )(如麦克风间的差异)、方言差异、非母语口音( non-native accent )引起的。 一个成功的语音识别系统必须能够应付所有这类声音的变化因素。

--------------------------------------------------------------------------------------------------------------------------------

模型:

        特征提取方法:梅尔倒谱系数(mel-frequency cepstral coefficient,MFCC)

                                相对频谱变换斗惑知线性预测”( perceptual linear prediction,PASTA-PLP )

        

        声学模型:混合高斯模型-隐马尔可夫模型( Gaussian mixture model-HMM, GMM-HMM )

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值