文本无关说话人确认的深度神经网络嵌入

最新推荐文章于 2023-01-15 01:49:12 发布

海上机械师

最新推荐文章于 2023-01-15 01:49:12 发布

阅读量800

点赞数 1

分类专栏：说话人识别文章标签：说话人确认说话人识别 DNN 嵌入 TDNN 域不匹配

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/i_love_home/article/details/104795669

版权

文本无关说话人确认的深度神经网络嵌入

论文：Snyder D, Garcia-Romero D, Povey D, et al. Deep Neural Network Embeddings for Text-Independent Speaker Verification. 18th Annual Conference of the International Speech Communication Association[C]. 2017: 999–1003.

论文的作者提出了 X-Vector，，X-Vector 可以查看该博文。

文章目录

文本无关说话人确认的深度神经网络嵌入

摘要

在说话人无关的说话人确认系统中，可以通过神经网络的时间池化层(Temporal Pooling Layer)来聚合说话人语音，以捕获长期的的说话人特征，从而实现长度变化的语音转化为固定维度的说话人嵌入。D. Snyder 提出了一种新的前端-后端说话人确认框架，其中前端模型采用深度神经网络(Deep Neural Network, DNN)提取说话人嵌入，后端模型采用概率判别分析对注册语音和测试语音进行评分计算。该方法在 NIST SRE 2010 英文语料与 2016 Cantonese 与 Tagalog 非英文语料上评测短时、语音不匹配的系统性能。结果表明：1）1）DNN 嵌入与 i-vector 相当，2）两种向量的得分融合互补，3）DNN 嵌入在短时语音上更优，4）DNN 对语音不匹配更鲁棒。

方法

论文中提及了两种说话人确认的系统：i-vector 系统与 DNN 嵌入系统：

i-vector 系统
- 模型：输入(60-d) $\mapsto$ UBM(2048-c)

最低0.47元/天解锁文章

海上机械师

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

海上机械师

博客等级

码龄12年

86
原创

177
点赞

650
收藏

196
粉丝

关注

私信

热门文章

分类专栏

说话人识别 13篇
语音识别 3篇
迁移学习 1篇
机器视觉 1篇
算法 16篇
深度学习 6篇
机器学习 15篇
最优化算法 4篇
数值分析 9篇
图论 20篇
Python 7篇
Matlab 16篇
Java 9篇

最新评论

SincNet 原始波形的说话人识别
Lzh_22: 你好 SincNet模型结构中滤波器的长度l是固定的还是可以改变的？或者说它有改变的必要吗？
可解释的卷积滤波器 SincNet
Lzh_22: 你好，我想请教一下。SincNet滤波器是基于频域还是时域提取？是频域那提取哪些范围段？SincNet中有几个滤波器？
Chapter 5. MATLAB基础绘图
2201_75941485: 第六题，函数 'solve' 的输入或输出的数目或类型不正确。
SincNet 原始波形的说话人识别
jingxi_chen: 你好请问也就是说sincconv层用于代替了常见的MFCC或者mel-filters等操作，不需要对输入的语音进行预加重，傅里叶变化，非线性变换那些的，只需要把它分帧然后相当于raw audio输入给sincconv是吗？
D-Vector 小型的文本相关说话人确认系统的深度神经网络
海上机械师: 建议搜一下 d-vector 相关的开源项目。

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。