An Unsupervised Neural Prediction Framework for Learning Speaker Embeddings using Recurrent Neural Networks
一种用回归神经网络学习说话人嵌入的无监督神经网络预测框架
摘要
本文提出了一种无监督的训练框架,用于使用神经预测编码(NPC)技术学习特定于说话者的嵌入。我们采用回归神经网络(RNN)训练未标记的音频,具有多个未知的说话人变化点。我们假设短期说话者平稳性,因此短时间接近的语音帧起源于单个说话者。相反,假设来自不同音频流的两个随机短语音段源自两个不同的说话人。基于这个假设,开发了一种二元分类场景,用于预测输入的短语音段是否来自同一个说话人。训练基于RNN的深暹罗网络,并且从网络的隐藏层表示中提取的所得嵌入被用作说话者嵌入。说话人变化点检测的实验结果显示了所提出的方法学习短期说话者特定功能的功效。我们还通过简单的基于统计的话语级别说话人分类任务显示这些功能的一致性。所提出的方法优于用于说话者变化检测的MFCC基线,以及用于说话者分类的MFCC和I-vectors基线。索引术语:无监督学习,循环神经网络,说话者分割,说话者分类&#x