深度学习声纹识别_声纹识别:你的声音是这样被“破译”的!

节目中的比赛规则是这样的:从21位性别相同、年龄相仿、声线极为相似的专业合唱团中,选出三位每个人读一句话,加密后成为断断续续的声音样本再交给小度和人类选手,要求他们从合唱声音中识别出三名线人的声音。(什么加密什么样本,你说慢点好不好)简单说就是根据声音片段从21个人中挑选出对应的人。那个结果是,小度与一名很有听力天赋的少年打成平手,但是已经超过了我们一般人的水平。下面就让我们一起唠唠说话人识别。首...
摘要由CSDN通过智能技术生成

节目中的比赛规则是这样的:从21位性别相同、年龄相仿、声线极为相似的专业合唱团中,选出三位每个人读一句话,加密后成为断断续续的声音样本再交给小度和人类选手,要求他们从合唱声音中识别出三名线人的声音。(什么加密什么样本,你说慢点好不好)简单说就是根据声音片段从21个人中挑选出对应的人。那个结果是,小度与一名很有听力天赋的少年打成平手,但是已经超过了我们一般人的水平。

下面就让我们一起唠唠说话人识别。

首先背一下书本上面的概念,语音具有特殊性和稳定性。特殊性在于,每个人都具有属于自己的一套发声器官,它们的形态构造千差万别,声音的产生需要多个器官的相互配合,引起空气振动。这也决定了不同人的语音的物理属性(音质、音长、音高、音强)是不同的。不同的人具有不同的声音特征,在语音图谱上表现为参数上的差异,我们可以根据特征参数,确定是否是同一个人。稳定性在于,当一个人发音器官发育成熟之后,其解剖结构和生理状态是稳定不变的,加之发音人的言语习惯等语音的社会心理属性,使得不同人在不同的时段内所说的相同文本内容的话,基本语音特征是稳定不变的。很喜欢某网友举的例子,管乐中包括很多种号,长号、短号、圆号等由于声道长短形状差异,吹出来的音色也是不一样的。

鉴于语音的特殊性和稳定性,我们可以将语音作为特征来区分说话人。声纹识别本质上是一个模式识别问题,解决这个问题最经典的方法就是GMM-UBM了。

其中GMM是大家都熟悉的高斯混合模型,而UBM是通用背景模型(Universal Back-ground Model)。实际中,每一个说话人的语音数据很少,训练不充分,导致对说话人建模的精度不够,因此提出了UBM模型。UBM模型是在大量说话人数据混合

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值