OSCHINA · Speaker-Recognition

OSCHINA · Speaker-Recognition

原文链接

1.GMM-UBM(混合高斯,通用背景模型)

该模型,将声学特征投影到高维空间上,得到高维的均值超矢量。UBM采用大规模的说话人预料训练完成,并因此可以进行说话人的共性特征的描述。以UBM为初始模型,采用目标说话人数据进行基于最大后验概率的自适应训练,得到目标说话人的混合高斯模型。通过计算似然值的方法进行说话人打分,通过分值进行判决。

实际中,如果遇到训练语音比较短或者语料比较少的情况,GMM模型的效果就不会有很好的效果。而GMM-UBM可以在较小的训练集情况下仍然可以获得较为准确的模型,识别性能及鲁棒性都很好。

2.联合因子分析

传统的联合因子分析建模过程主要是基于两个不同的空间:由本征音空间矩阵定义的说话人空间,由本征信道空间矩阵定义的信道空间。

3.i-vector

i-vector采用一个空间来代替两个空间,这个新的空间可以成为全局差异空间,既包含了说话者之间的差异,又包含了信道间的差异。所以i-vector的建模过程在GMM均值超矢量中不严格区分说话者的影响和信道的影响。

i-vector可以看做一种特征,也可以看做是最简单的模型,测试阶段,只要计算测试语音i-vector和模型的i-vector之间的余弦距离,就可以作为最后的评分。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值