一种用回归神经网络学习说话人嵌入的无监督神经网络预测框架

最新推荐文章于 2022-11-23 11:09:23 发布

落雪snowflake

最新推荐文章于 2022-11-23 11:09:23 发布

阅读量444

点赞数

分类专栏：论文翻译深度学习声纹识别文章标签： 2018interspeech论文翻译

深度学习声纹识别同时被 2 个专栏收录

44 篇文章 77 订阅 ¥19.90 ¥99.00

订阅专栏

论文翻译

31 篇文章 0 订阅

订阅专栏

本文提出了一种无监督的训练框架，利用RNN学习说话人嵌入。通过二元分类场景预测输入的语音段是否来自同一说话人，这种方法在说话人变化点检测和说话人分类任务上表现出色，优于MFCC基线和I-vectors基线。该框架适用于无标记数据，尤其适合多说话人环境。

摘要由CSDN通过智能技术生成

An Unsupervised Neural Prediction Framework for Learning Speaker Embeddings using Recurrent Neural Networks

一种用回归神经网络学习说话人嵌入的无监督神经网络预测框架

摘要

本文提出了一种无监督的训练框架，用于使用神经预测编码（NPC）技术学习特定于说话者的嵌入。我们采用回归神经网络（RNN）训练未标记的音频，具有多个未知的说话人变化点。我们假设短期说话者平稳性，因此短时间接近的语音帧起源于单个说话者。相反，假设来自不同音频流的两个随机短语音段源自两个不同的说话人。基于这个假设，开发了一种二元分类场景，用于预测输入的短语音段是否来自同一个说话人。训练基于RNN的深暹罗网络，并且从网络的隐藏层表示中提取的所得嵌入被用作说话者嵌入。说话人变化点检测的实验结果显示了所提出的方法学习短期说话者特定功能的功效。我们还通过简单的基于统计的话语级别说话人分类任务显示这些功能的一致性。所提出的方法优于用于说话者变化检测的MFCC基线，以及用于说话者分类的MFCC和I-vectors基线。索引术语：无监督学习，循环神经网络，说话者分割，说话者分类&#x

了解本专栏