声纹识别中PLDA的域自适应的通用框架

最新推荐文章于 2020-11-02 13:42:25 发布

落雪snowflake

最新推荐文章于 2020-11-02 13:42:25 发布

阅读量723

点赞数

分类专栏：深度学习声纹识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38858860/article/details/107617311

版权

深度学习声纹识别专栏收录该内容

44 篇文章 76 订阅 ¥19.90 ¥99.00

订阅专栏

本文提出了一种通用框架，用于在说话人识别中进行PLDA的域自适应，融合了有监督和无监督方法，包括基于相关对齐的插值和协方差正则化技术。实验表明，该框架能显著降低minCprimary，提高系统性能。

摘要由CSDN通过智能技术生成

A GENERALIZED FRAMEWORK FOR DOMAIN ADAPTATION OF PLDA IN SPEAKER RECOGNITION

2020顶会论文学习

提出了一种用于说话人识别中的概率线性判别分析（PLDA）领域自适应的通用框架。它不仅包括几种现有的有监督的和无监督的域自适应方法，而且还使得可以灵活地使用不同域中的可用数据。（1）基于相关对齐的插值和（2）协方差正则化。所提出的基于相关性比对的插值方法与自适应之前的域外PLDA模型相比，将minCprimary降低了30.5％，并且与具有最佳插值权重的传统线性插值方法相比，minCprimary的数值也降低了5.5％。此外，提出的正则化技术确保了插值w.r.t.的鲁棒性。改变插值权重.

最先进的说话人识别系统由x矢量（或i矢量）说话人嵌入前端，然后是PLDA后端组成，已显示出令人鼓舞的性能[11]。这些组件的有效性取决于大量标记培训数据的可用性，这些数据通常是数百小时的语音录音，其中包括来自数千名演讲者的多会话录音。但是，为每个应用程序收集如此大的域内（InD）数据作为新的关注域，将是非常昂贵的。已经存在的大多数可用资源丰富的数据将不匹配新的关注域，即大多数将是域外（OOD&

了解本专栏

落雪snowflake

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

落雪snowflake 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。