文章目录
1. 声纹识别系统框架
1.0 声纹识别系统
目前常见的声纹识别有以下两种表达:
(个人不太直观和清楚,不仅“阶段”没有讲清楚,还容易混淆“模型”——实质上有三个阶段、至少连个“模型”的概念)
1.0.1 不太清晰的两个阶段:训练阶段和测试阶段
上图这种系统框架图并没有直观地反应出测试阶段的两种情况:注册和验证
或者这种:
也没有具体细化。
1.0.2 只讲了一个阶段:测试/应用阶段(包括注册和验证)
上图这种方式又很容易让人忽视一个前提:声纹建模模型是已知的,或者说已经经过了模型训练阶段。
1.0.3 声纹识别系统的三个阶段
个人认为比较合理的说话人识别系统框架:
实际上,声纹识别系统有三个阶段:
- 训练阶段(training):训练特征提取模型(声纹编码器模型)
- 注册阶段(enrollment):录入底库数据(形成所谓的“说话人模型”,每个人都有一个)
在这个阶段,每个说话人每一条音频都会形成一个声纹模型,最后对所有模型进行聚合(比如取平均等),最终形成这个说话人的说话人模型 - 测试/评估阶段(evaluation):读入测试数据,进行识别(相似度匹配)
The speaker verification, in general, consists of three stages: Training, enrollment, and evaluation. In training, the universal background model is trained using the gallery of speakers. In enrollment, based on the created background model, the new speakers will be enrolled in creating the speaker mod