深度学习声纹识别_声纹识别：你的声音是这样被“破译”的！

最新推荐文章于 2023-10-31 17:10:08 发布

Suvo Sarkar

最新推荐文章于 2023-10-31 17:10:08 发布

阅读量1.4k

点赞数

文章标签：深度学习声纹识别

本文链接：https://blog.csdn.net/weixin_36444661/article/details/112928314

版权

本文介绍了声纹识别的基本原理，重点讨论了GMM-UBM和I-Vector技术，以及深度学习模型DeepSpeaker在说话人识别领域的应用。通过模型训练和特征提取，实现对不同说话人的准确识别，该技术在安全验证和个性化服务中有广泛应用。

摘要由CSDN通过智能技术生成

节目中的比赛规则是这样的：从21位性别相同、年龄相仿、声线极为相似的专业合唱团中，选出三位每个人读一句话，加密后成为断断续续的声音样本再交给小度和人类选手，要求他们从合唱声音中识别出三名线人的声音。(什么加密什么样本，你说慢点好不好)简单说就是根据声音片段从21个人中挑选出对应的人。那个结果是，小度与一名很有听力天赋的少年打成平手，但是已经超过了我们一般人的水平。

下面就让我们一起唠唠说话人识别。

首先背一下书本上面的概念，语音具有特殊性和稳定性。特殊性在于，每个人都具有属于自己的一套发声器官，它们的形态构造千差万别，声音的产生需要多个器官的相互配合，引起空气振动。这也决定了不同人的语音的物理属性(音质、音长、音高、音强)是不同的。不同的人具有不同的声音特征，在语音图谱上表现为参数上的差异，我们可以根据特征参数，确定是否是同一个人。稳定性在于，当一个人发音器官发育成熟之后，其解剖结构和生理状态是稳定不变的，加之发音人的言语习惯等语音的社会心理属性，使得不同人在不同的时段内所说的相同文本内容的话，基本语音特征是稳定不变的。很喜欢某网友举的例子，管乐中包括很多种号，长号、短号、圆号等由于声道长短形状差异，吹出来的音色也是不一样的。

鉴于语音的特殊性和稳定性，我们可以将语音作为特征来区分说话人。声纹识别本质上是一个模式识别问题，解决这个问题最经典的方法就是GMM-UBM了。

其中GMM是大家都熟悉的高斯混合模型，而UBM是通用背景模型(Universal Back-ground Model)。实际中，每一个说话人的语音数据很少，训练不充分，导致对说话人建模的精度不够，因此提出了UBM模型。UBM模型是在大量说话人数据混合