百度声纹识别论文deep speaker介绍

最新推荐文章于 2024-04-27 09:59:51 发布

curisan

最新推荐文章于 2024-04-27 09:59:51 发布

阅读量7.1k

点赞数

分类专栏：学习日记文章标签：声纹识别深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Lauyeed/article/details/80185790

版权

学习日记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

这篇文章介绍一下百度的声纹识别论文：Deep speaker: an End-to-End Neural Speaker Embedding System

其基本架构如图1所示

图1 Deep speaker基本架构

一段语音经过前端处理，做VAD，提取64维的fbank系数作为声学特征；然后将该特征作为深度神经网络的输入，这里的深度神经网络可以是基于ResNet的CNN，也可以是循环神经网络GRU；接着对深度神经网络的输出在时间方向上做平均，再接一个完全连接层得到512维的向量，做均值为1，方差为1的正规化之后，用该向量来表示该说话者。

训练的时候，使用Triplet loss作为损失函数。通过随机梯度下降，使得来自同一个人的向量相似度尽可能大，不是同一个说话者的向量相似度尽可能小。

以下将较为详细地介绍网络架构和Triplet loss

ResCNN

ResCNN的网络架构是基于ResNet的CNN，而且是完全卷积的，因此在时间方向上是可变的（当然，同一个batch中时间方向上必须一样）。使用CNN，其实是把声纹识别当成图像识别来处理了。这个可以看图1中的第二幅图，语音变换到频域之后就是一张图。其中，图的纵轴表示fbank的频点，这里是64；横轴表示时间，在这里是可变的

关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
6
评论
百度声纹识别论文deep speaker介绍

这篇文章介绍一下百度的声纹识别论文：Deep speaker: an End-to-End Neural Speaker Embedding System其基本架构如图1所示图1 Deep speaker基本架构一段语音经过前端处理，做VAD，提取64维的fbank系数作为声学特征；然后将该特...
复制链接

扫一扫

专栏目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。