声纹识别知识整理

最新推荐文章于 2024-07-18 15:49:56 发布

shaobo Huang

最新推荐文章于 2024-07-18 15:49:56 发布

阅读量1.4w

点赞数 31

分类专栏： # 声纹识别

本文链接：https://blog.csdn.net/weixin_42788078/article/details/103180363

版权

本文介绍了声纹识别的基础知识，包括算法总览、初识声纹、语音技术和声纹识别算法的应用。声纹识别算法从GMM-UBM i-vector发展到DNN和端到端系统，涉及到的关键技术包括i-vector、DNN、x-vector和端到端训练。声纹识别技术的关键指标有错误拒绝率、错误接受率和准确率，影响因素包括声源采样率、信噪比、信道和文本内容。此外，文章还探讨了语音识别流程和各种资源，如Kaldi、TensorFlow-based Deep Speaker等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关于声纹识别的算法及知识层出不穷，一文带你了解声纹识别：

一、算法总览

1. 最早的GMM-UBM i-vector

利用GMM高斯混合模型提取特征i-vector；克服训练数据不多的情况，引入UBM；将语音分为说话人空间和环境空间，解决环境带来的信道，PLDA实现信道补偿，将提取的i-vector更加纯粹。

当然，获取i-vector的方法不仅仅局限在高斯混合模型，利用一起其它的机器学习方法进行补充一样可以，甚至是DNN提取的特征。

2. DNN

DNN的引入极大的降低了识别错误率。这时候的算法，可以称为embedding算法，依然是提取特征，不过这时候提取的是神经网络最后隐藏层的激活单元了，作为embedding，代替i-vector来作为一段语音的特征表示。

这时候出现了d-vector（深度神经网络最后一个隐藏层作为embeddings特征）、x-vector（从TDNN网络中提取embeddings特征）、j-vector模型（适用于文本相关说话人确认）

3. 端到端系统

无论是获得i-vector，还是DNN提取出的embedding，都是从语音中提取出特征再做分类或者确认。而端到端系统将这2段合到一个系统中，从输入到输出，一体化特征训练和分类打分。这和之前有了重大的不同。

二、初识声纹

1. 什么是声纹？

声纹(Voiceprint )是用电声学仪器现实的携带言语信息的声波频谱，是由波长频率以及强度等百余种特征维度组成的生物特征，具有稳定性、可测量性、唯一性等特点。

人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，发声器官–舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。
每个人的语音声学特征既有相对稳定性，又有变异性，不是一成不变的。这种变异可来自生理、病理、心理、模拟、伪装，也与环境干扰有关。

声纹不如图像那样直观展现，在实际分析中，可通过波形图和语谱图进行展现
在这里插入图片描述

2. 声纹识别的原理

人在讲话时使用的发声器官在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异，主要体现在如下方面：

共鸣方式特征：咽腔共鸣、鼻腔共鸣和口腔共鸣
嗓音纯度特征：不同人的嗓音，纯度一般是不一样的，粗略地可分为高纯度（明亮）、低纯度（沙哑）和中等纯度三个等级
平均音高特征：平均音高的高低就是一般所说的嗓音是高亢还是低沉
音域特征：音域的高低就是通常所说的声音饱满还是干瘪

不同人的声音在语谱图中共振峰的分布情况不同，声纹识别正是通过比对两段语音的说话人在相同音素上的发声来判断是否为同一个人，从而实现“闻声识人”的功能。
在这里插入图片描述

3. 声纹识别算法的技术指标

声纹识别在算法层面可通过如下基本的技术指标来判断其性能，除此之外还有其它的一些指标，如：信道鲁棒性、时变鲁棒性、假冒攻击鲁棒性、群体普适性等指标，这部分后续于详细展开讲解。

错误拒绝率(False Rejection Rate, FRR) ：分类问题中，若两个样本为同类（同一个人），却被系统误认为异类（非同一个人），则为错误拒绝案例。错误拒绝率为错误拒绝案例在所有同类匹配案例的比例。
错误接受率(False Acceptance Rate, FAR) ：分类问题中，若两个样本为异类（非同一个人），却被系统误认为同类（同一个人），则为错误接受案例。错误接受率为错误接受案例在所有异类匹配案例的比例。
准确率(Accuracy，ACC)：调整阈值，使得FAR＋FRR最小，1减去这个值即为识别准确率，即ACC=1 - min(FAR+FRR)
速度：（提取速度：提取声纹速度与音频时长有关、验证比对速度）：Real Time Factor 实时比（衡量提取时间跟音频时长的关系，比如：1秒能够处理80s的音频，那么实时比就是1:80）。验证比对速度是指平均每秒钟能进行的声纹比对次数。
ROC曲线：描述FAR与FRR之间相互变化关系的曲线，X轴为FAR的值,Y轴为FRR的值。从左到右，当阈值增长期间，每一个时刻都有一对FAR和FRR的值，将这些值在图上描点连成一条曲线，就是ROC曲线。
阈值：在接受/拒绝二元分类系统中，通常会设定一个阈值，分数超过该值时才做出接受决定。调节阈值可以根据业务需求平衡FAR与FRR。当设定高阈值时，系统做出接受决定的得分要求较为严格，FAR降低，FRR升高；当设定低阈值时，系统做出接受决定的得分要求较为宽松，FAR升高，FRR降低。在不同应用场景下，调整不同的阈值，则可在安全性和方便性间平平衡