百度端到端说话人识别系统 Deep Speaker 详细介绍

最新推荐文章于 2024-08-09 08:34:36 发布

Kevin亓(Qi)

最新推荐文章于 2024-08-09 08:34:36 发布

阅读量6.5k

点赞数 2

分类专栏： # 声纹识别文章标签： Deep Speaker 深度学习 ResCNN 说话人识别声纹识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/KevinBetterQ/article/details/85476575

版权

本文详细介绍了百度的Deep Speaker说话人识别系统，涵盖了从语音前端处理到特征提取网络，以及ResCNN网络结构分析。ResBlock由3*3卷积核和ReLU激活组成，ResCNN通过多层ResBlock进行特征提取。最后，平均层和仿射层用于生成最终的说话人特征向量，再经过length normalization层进行标准化。文章还讨论了triplet loss在训练过程中的作用。

摘要由CSDN通过智能技术生成

Deep Speaker 详细介绍

0、补充知识
- 神经网络：
- 卷积层：
1、Deep Speaker 介绍
2、ResCNN 网络结构分析
3、Triplet Loss

前言：百度端到端说话人识别系统 Deep Speaker : an End-to-End Neural Speaker Embedding System，论文学习整理一下

0、补充知识

神经网络：

假设L层的输出为a[L]，则L+1层得到的为 a[L]的线性变换 + 激活

线性变换：z[L+1] = w[L+1] * a[L] + b[L+1]
激活：a[L+1] = g( z[L+1] )

卷积层：

二维卷积核和三维卷积核：二位卷积核针对输入也是二维，二维卷积核可以想象成一个正方形，参数（高，宽）；三维卷积核则针对三维输入（高，宽，通道数），可以想象成一个长方体，参数中多了一个 “通道数”，一般卷积核的通道数与输入数据的通道数是一样的，所以维度上的变化在于卷积核的个数。
卷积核参数：三维卷积核一般设置4个参数，（高，宽，输入通道数，卷积核个数），其中卷积核个数也就是输出时的第三维-输出通道数。
维度变化：输入三维数据（高, 宽, 通道数c），卷积核（尺寸x * y * c，步长）。其中卷积核尺寸和步长会改变输入的高和宽的维度；而卷积核的个数带来的是第三维的变化

最低0.47元/天解锁文章

关注

2
点赞
踩
32

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。