语音识别(一)

参考:http://www.julyedu.com/video/play/104/916

    语音信号的频率一般在300Hz-3400Hz,按照奈奎斯特采样定理,为保证频谱不混叠,采样率至少为最高频率的2倍,一般最低采样率为8000Hz。

    在2010年以前,语音识别的技术主要基于混合高斯模型(GMM)和隐性马尔科夫(HMM)模型,2010年以后,主要基于神经网络。该讲座主要是讲怎样将语音转换成文字,相关课题包括(本讲座不涉及)

-元数据识别:语种、说话人、情感等

-语音增强与分离

-语音合成(文字变语音)与转换

-自然语言理解、对话系统

 

孤立词识别

1.特征提取

    (1)分段提取,一段即一帧,一帧信号通常为20-50ms,包含2-3个周期,在一个音素(如你好,n、i、h 、a、o是一个音素)内(保证傅里叶变换区间的稳定性)。

    (2)傅里叶变换—>三角滤波—>离散余弦变换(DCT)

男声的基频在100Hz左右,女声的基频在200Hz左右,频谱具有精细结构和包络,通过三角滤波提取频谱的包络。

 

MFCC序列是最常用的特征

 

2.“动态弯(Dynamic Time Warping)”算法(计算两个特征序列的举例)

通过动态规划算法匹配待计算距离的两个帧,总距离为各帧欧式距离之和。

 

3. GMM(混合高斯模型)

如果Yes这个单词有多个模板怎么办?模板—>模型

以其中一个模板为标准,其他模板与之对齐,把模板切分成多个段落,用高斯分布的叠加拟合每段中特征向量的分布。

通过期望最大化估计GMM模型的参数。

 

4. HMM(隐性马尔科夫模型)

对音素持续时间建模(添加状态间的转移概率)

模型的参数:

-转移概率

-观测概率

-模型是单向的,不必讨论初始概率

 

 

EM训练算法

-如果知道对齐方式,则易得模型参数,知道模型参数,则易得对齐方式,现在是都不知道,先瞎猜一种对齐方式,如均匀分割,由此求出模型参数(M步),再更新对齐方式(E步),对齐方式可用Viterbi,实际中用Forward-backward,迭代直到收敛。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值