![cb4c59e2c1a75a7e2efd64585d52e761.png](https://i-blog.csdnimg.cn/blog_migrate/a0d2e4dffa67df2d168ea53987b5f87d.jpeg)
| 什么是声纹识别
声纹识别(又称说话人识别)是从说话人发出的语音信号中提取声纹信息,并对说话人进行身份验证的一种生物识别技术。简单来说,声纹识别技术可以“确认说话人是谁”。我们说话的时候,每个人的发音器官、发音通道和发音习惯上都有个体差异,声纹识别技术就是为了识别出说话人之间的这些差异。需要注意的是,声纹识别不同于常见的语音识别 [1]:
- 语音识别:是共性识别,能听懂人的说话内容,即“你说了什么?”。
- 声纹识别:是个性识别,能判断说话人是谁,即“说话人是谁?”。
| 声纹识别模型
背景
声纹识别的本质,就是要找到描述特定对象的声纹特征 (feature),声纹特征类似于虹膜、指纹等,是一种独特的生物特征。至于特征提取方法,按照发展历程有模板匹配、高斯混合模型 (GMM) 、联合因子分析法 (JFA) 、深度神经网络方法等[2]。在深度神经网络之前出现的方法基本可以认为是传统方法。传统方法通常用精确的数学模型对声音信号进行特征提取,而深度神经网络通过模型训练获得声纹特征。研究表明:相较于传统方法,利用深度学习的方法在识别准确率上获得了显著的提高。本文用到的声纹特征就是基于深度学习模型得到的。
特征提取
Deep Speaker[3] 是百度发布的一个基于神经网络的说话人嵌入系统,其基本思想是将说话人的语音映射到一个超平面,从而可以通过余弦相似度取来衡量说话人的相似度。