一种用回归神经网络学习说话人嵌入的无监督神经网络预测框架

31 篇文章 0 订阅
本文提出了一种无监督的训练框架,利用RNN学习说话人嵌入。通过二元分类场景预测输入的语音段是否来自同一说话人,这种方法在说话人变化点检测和说话人分类任务上表现出色,优于MFCC基线和I-vectors基线。该框架适用于无标记数据,尤其适合多说话人环境。
摘要由CSDN通过智能技术生成

An Unsupervised Neural Prediction Framework for Learning Speaker Embeddings using Recurrent Neural Networks

一种用回归神经网络学习说话人嵌入的无监督神经网络预测框架

摘要

本文提出了一种无监督的训练框架,用于使用神经预测编码(NPC)技术学习特定于说话者的嵌入。我们采用回归神经网络(RNN)训练未标记的音频,具有多个未知的说话人变化点。我们假设短期说话者平稳性,因此短时间接近的语音帧起源于单个说话者。相反,假设来自不同音频流的两个随机短语音段源自两个不同的说话人。基于这个假设,开发了一种二元分类场景,用于预测输入的短语音段是否来自同一个说话人。训练基于RNN的深暹罗网络,并且从网络的隐藏层表示中提取的所得嵌入被用作说话者嵌入。说话人变化点检测的实验结果显示了所提出的方法学习短期说话者特定功能的功效。我们还通过简单的基于统计的话语级别说话人分类任务显示这些功能的一致性。所提出的方法优于用于说话者变化检测的MFCC基线,以及用于说话者分类的MFCC和I-vectors基线。索引术语:无监督学习,循环神经网络,说话者分割,说话者分类&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值