基于深度学习方法的声纹识别（Speaker Recognition）论文综述

最新推荐文章于 2023-10-31 17:10:08 发布

YZhang0108

最新推荐文章于 2023-10-31 17:10:08 发布

阅读量6.3k

点赞数 8

分类专栏：音频处理文章标签：深度学习人工智能神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/YZhang0108/article/details/105862743

版权

本文概述了声纹识别技术，包括说话人验证和识别，并详细介绍了多个深度学习模型，如Deep Speaker、Generalized End-to-End Loss、Attention-Based Models、End-to-End Text-Independent Speaker Verification等，利用ResCNN、GRU、LSTM等结构，通过三元组损失、GE2E损失等优化方法提升识别准确性。涉及的数据集包括UIDs、XiaoDu、Mandarin、ETAPE等。

摘要由CSDN通过智能技术生成

声纹识别（Speaker Recognition），是一项提取说话人声音特征和说话内容信息，自动核验说话人身份的技术。
声纹识别通常分为两类：Speaker Verification （说话人验证）和Speaker identification （说话人识别）。

Speaker Verification （说话人验证）：使用自己的语音进行验证。如果说话人宣称是某个身份，使用语音对此进行验证。
Speaker identification （说话人识别）：识别谁正在说话。用于确定某个未知说话人的身份。未知说话人的输入音频与选中的说话人组配对，如果发现存在匹配，即返回说话人的身份。
在实际应用中，划分为三个阶段：
（1）开发阶段：训练一个深度网络模型区分不同说话人；
（2）注册阶段：用训练好的网络创建说话人模型。
（3）验证阶段：提取测试语句特征，与存储的说话人模型进行比较，验证身份。
语音预处理：语音降噪、回声消除、语音端点检测等

1、 Deep Speaker：an End-to-End Neural Speaker Embedding System （Baidu 2017）
（1）数据预处理方法：未知
（2）深度网络结构（用于提取声学特征）：
在这里插入图片描述
采用两种深度神经网络模型作为骨架网络：

Deep residual CNN (ResCNN)，基于ResNet 改进；
Gated recurrent unit (GRU) ，基于RNN 改进。
（3）损失函数
使用人脸识别中采用的三元组损失（Triplet Loss）, 在训练过程中，选择一个说话者的话语，然后计算一个嵌入（标记为“Anchor”）。再产生两个嵌入，一个来自相同的说话者（标记为“Positive”），一个来自于不同的说话者（标记为“Negative”）。在训练过程中，其目标是让Anchor与p

最低0.47元/天解锁文章

关注

8
点赞
踩
71

收藏

觉得还不错? 一键收藏
10
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 10

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。