基于深度学习方法的声纹识别(Speaker Recognition)论文综述

声纹识别(Speaker Recognition),是一项提取说话人声音特征和说话内容信息,自动核验说话人身份的技术。
声纹识别通常分为两类:Speaker Verification (说话人验证)和Speaker identification (说话人识别)。

  • Speaker Verification (说话人验证):使用自己的语音进行验证。如果说话人宣称是某个身份,使用语音对此进行验证。
  • Speaker identification (说话人识别):识别谁正在说话。用于确定某个未知说话人的身份。未知说话人的输入音频与选中的说话人组配对,如果发现存在匹配,即返回说话人的身份。
    在实际应用中,划分为三个阶段:
    (1)开发阶段:训练一个深度网络模型区分不同说话人;
    (2)注册阶段:用训练好的网络创建说话人模型。
    (3)验证阶段:提取测试语句特征,与存储的说话人模型进行比较,验证身份。
    语音预处理:语音降噪、回声消除、语音端点检测等

1、 Deep Speaker:an End-to-End Neural Speaker Embedding System (Baidu 2017)
(1)数据预处理方法:未知
(2)深度网络结构(用于提取声学特征):
在这里插入图片描述
采用两种深度神经网络模型作为骨架网络:

  • Deep residual CNN (ResCNN),基于ResNet 改进;
  • Gated recurrent unit (GRU) ,基于RNN 改进。
    (3)损失函数
    使用人脸识别中采用的三元组损失(Triplet Loss), 在训练过程中,选择一个说话者的话语,然后计算一个嵌入(标记为“Anchor”)。再产生两个嵌入,一个来自相同的说话者(标记为“Positive”),一个来自于不同的说话者(标记为“Negative”ÿ
  • 8
    点赞
  • 71
    收藏
    觉得还不错? 一键收藏
  • 10
    评论
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值