声学模型概述

这篇博客是关于声学模型的简单介绍。

  • 输出概率

声学模型的输入是由特征提取模块提取的特征(比如mfcc特征)。一般来说,这些特征是多维的向量,并且其取值可以是离散或连续的。
早期的声学模型常常采用矢量聚类(Vector Quantification)的方法,将信号直接映射到某个码本k,然后再计算某个模型j输出该码本的概率bj(k)。但是这一方法是比较粗糙的,其性能受到VQ算法的很大影响,如果VQ本身性能就很差,声学模型的估计就会很不准确。因此,对于连续取值的特征应当采用连续的概率分布。由于语音信号特征的分布并不能用简单的概率分布,例如高斯分布等来直接描述,故而常用混合高斯模型或混合拉普拉斯模型等方法对语音信号的分布进行拟合。在此,混合高斯分布可以表示为若干高斯分量Gi的加权组合。即:

G(x)=i=1nwiGi(x)

其中 Gi(x) 是均值为 μi 方差为 σi 的高斯分布。
从数学角度看,当i趋向于无穷时,任何连续分布都可以用混合高斯模型来逼近。但是,高斯混合模型也存在着问题,那就是其计算量偏大。假设对于一个包含n个混合分量的混合高斯模型,其维度为m维,那么至少要进行 m×n 次运算才能得到结果,如果有i个模型需要计算,那么时间复杂度就是 O((mn)i) 。相比之下,离散HMM就相对简单,只需要进行一次VQ,再进行i次查表操作,就能够计算所有模型的概率值。因此,也出现了将二者结合起来的半连续隐马模型。其思路是输出概率不仅仅由bj(k)来决定,还乘以VQ的概率,也就是该信号属于次码本的概率。

从精确度上看,连续隐马模型要优于半连续隐马模型,而半连续隐马模型又优于离散隐马模型。从算法复杂度上来看则正好相反。

高斯混合模型(Gaussian Mixture Model, GMM)是语音信号处理中的一种常用的统计模型,该模型的一个基本理论前提是只要高斯混合的数目足够多,一个任意的分布就可以在任意的精度下用这些高斯混合的加权平均来逼近。一个包含M个分量的高斯混合分布的概率密度函数是M个高斯概率密度分布函数的加权组合,定义为:

p(x|λ)=iMωipi(x)

其中的x是D维随机矢量, pi(x),i=1,2,,M 为M个概率密度函数分量, ωi,i=1,2,,M 为各个概率密度函数分量的权重。在上式中,每个概率密度函数分量 pi(x) 都服从D维高斯分布,即
pi(
  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值