声纹识别(Speaker Recognition),是一项提取说话人声音特征和说话内容信息,自动核验说话人身份的技术。
声纹识别通常分为两类:Speaker Verification (说话人验证)和Speaker identification (说话人识别)。
- Speaker Verification (说话人验证):使用自己的语音进行验证。如果说话人宣称是某个身份,使用语音对此进行验证。
- Speaker identification (说话人识别):识别谁正在说话。用于确定某个未知说话人的身份。未知说话人的输入音频与选中的说话人组配对,如果发现存在匹配,即返回说话人的身份。
在实际应用中,划分为三个阶段:
(1)开发阶段:训练一个深度网络模型区分不同说话人;
(2)注册阶段:用训练好的网络创建说话人模型。
(3)验证阶段:提取测试语句特征,与存储的说话人模型进行比较,验证身份。
语音预处理:语音降噪、回声消除、语音端点检测等
1、 Deep Speaker:an End-to-End Neural Speaker Embedding System (Baidu 2017)
(1)数据预处理方法:未知
(2)深度网络结构(用于提取声学特征):
采用两种深度神经网络模型作为骨架网络:
- Deep residual CNN (ResCNN),基于ResNet 改进;
- Gated recurrent unit (GRU) ,基于RNN 改进。
(3)损失函数
使用人脸识别中采用的三元组损失(Triplet Loss), 在训练过程中,选择一个说话者的话语,然后计算一个嵌入(标记为“Anchor”)。再产生两个嵌入,一个来自相同的说话者(标记为“Positive”),一个来自于不同的说话者(标记为“Negative”)。在训练过程中,其目标是让Anchor与p