声纹识别的语言依赖前端分析

最新推荐文章于 2023-03-19 12:48:46 发布

落雪snowflake

最新推荐文章于 2023-03-19 12:48:46 发布

阅读量672

点赞数

分类专栏：论文翻译深度学习声纹识别文章标签： 2018interspeech论文翻译

深度学习声纹识别同时被 2 个专栏收录

44 篇文章 76 订阅 ¥19.90 ¥99.00

订阅专栏

31 篇文章 0 订阅

订阅专栏

本文探讨了在基于深度神经网络（DNN）的声纹识别系统中，语言依赖前端分析的问题。研究发现，使用针对特定语言训练的DNN i-vector系统在非英语环境下，如NIST SRE 2016的Tagalog子集，相比于通用的UBM/GMM i-vector系统，性能有显著提升，实现了12.1%的相对改善。

摘要由CSDN通过智能技术生成

Analysis of Language Dependent Front-End for Speaker Recognition

声纹识别的语言依赖前端分析

摘要

在基于深度神经网络（DNN）i-vector的说话人识别系统中，训练用于自动语音识别的声学模型。基于DNN的声学模型通常使用像英语这样资源充足的语言进行训练。在登记和测试数据不是英语的评估条件下，如在NIST SRE 2016数据集中，DNN声学模型推广得很差。在搜索条件，基于传统的通用背景模型/高斯混合模型（UBM / GMM）我向量提取的性能比基于DNN的i-vector系统更好。在本文中，我们要解决，其中一个可以开发一个自动语音场景识别器具有用于评估条件中存在的语言的有限资源，因此能够使用DNN声学模型而不是UBM / GMM。假设开放训练条件，在NIST SRE 2016数据集的Tagalog子集上进行实验。使用经过Tagalog训练的DNN i-vector系统，通过训练英语的基线系统获得12.1％的相对改善。

了解本专栏

落雪snowflake

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。