Tristespirit-CSDN博客

原创 SpeechBrain中yaml文件的语法问题

在学习speechbrain，运行其中的voxceleb实验的过程中有一些疑惑，在这里记录一下什么是yamlHyperPyYAML—用于python的扩展yaml语法。在yaml文件中可以通过yaml语法方便的获得实例化对象以及定义参数在speechbrain中遇到的一些基础语法!ref :object是在当前yaml文件中定义的变量!new path:path是一个类的全名e.g.compute_feature:!new:speechbrain.lobes.features.Fban.

2021-07-10 22:21:20 666

原创文献阅读：基于图的半监督学习在声音特征中的说话人分类的应用

论文论文：Speaker attribution with voice profiles by graph-based semi-supervised learning摘要&emsp;&emsp;在许多实际应用中（例如会议转录），都需要说话人归因，其中会根据说话人语音配置文件将说话人身份分配给每种话语。在本文中我们提出使用半监督的学习方法解决说话人归因的问题，模型结构数据集结果...

2021-05-27 21:30:50 448 1

原创文献阅读：基于图神经网络的会话级说话人嵌入改进

论文论文：** SPEAKER DIARIZATION WITH SESSION-LEVEL SPEAKER EMBEDDING REFINEMENT USING GRAPH NEURAL NETWORKS**摘要模型结构数据集结果

2021-05-25 20:07:17 677 1

原创文献阅读：Deep Speaker: an End-to-End Neural Speaker Embedding System

论文论文：Deep Speaker: an End-to-End Neural Speaker Embedding System摘要我们提出了Deep Speaker，一个神经说话人嵌入系统，它把语音映射到一个超球面上，使用余弦相似性来衡量说话人相似性。Deep Speaker产生的嵌入可以用于许多任务中，包括说话人验证、识别和聚类。我们在实验中使用ResCNN和GRU结构去提取声学特征，然后是均值池化产生话语级的说话人嵌入，训练中使用了基于余弦相似性的三元组损失。在三个不同数据集上的实验表明

2021-04-26 21:06:07 1044

原创文献阅读：短时语音中具有三元组损失的端到端的文本无关的说话人验证

论文论文：**End-to-End Text-Independent Speaker Verification with Triplet Loss on Short Utterances **摘要尽管最近在说话人识别的i-vec框架取得了进展，但针对短时语音的文本无关的说话人验证仍然是一个挑战。通常，为了得到一个具有鲁棒性的说话人表示，在最大后验自适应的步骤中需要足够多的数据，在短时条件下通常很难满足。为了克服这一点，我们提出了一个端到端的系统，它直接学习一个从语音特征到固定长度的说话人判别嵌

2021-04-23 21:58:58 440

原创文献阅读：TRISTOUNET: TRIPLET LOSS FOR SPEAKER TURN EMBEDDING

论文论文：TRISTOUNET: TRIPLET LOSS FOR SPEAKER TURN EMBEDDING摘要 TristouNet是一种基于长短时记忆循环神经网络(LSTM)的神经网络结构，旨在将语音序列投影到一个固定维度的欧氏空间。得益于三元组损失范式在训练中的使用，使得embedding序列可以直接使用欧氏距离进行比较。在短语音轮（500ms-5s）和说话人改变检测中的实验表明，TristouNet在当前两种任务最先进的性能上获得了显著提升。PS:本文的引言部分梳理了说话人识别相关

2021-04-21 10:35:01 425 1

原创文献阅读：X-VECTOR--用于说话人识别的鲁棒深度神经网络嵌入

论文论文：X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION摘要被训练用于区分说话人的深度神经网络把可变长的话语映射为固定维度的embedding，也我们叫它x-vector。先前的研究发现这种embedding在利用大规模的训练数据集后性能优于了i-vector，但是搜集大量高质量的标记的训练数据是一个挑战，所以我们使用包含增加噪声和混响的数据增强来作为一种价格低廉的增加训练数据数量和提升鲁棒性的方法。x-vector在数据集WI

2021-04-18 20:34:24 2554