自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 SpeechBrain中yaml文件的语法问题

在学习speechbrain,运行其中的voxceleb实验的过程中有一些疑惑,在这里记录一下什么是yamlHyperPyYAML—用于python的扩展yaml语法。在yaml文件中可以通过yaml语法方便的获得实例化对象以及定义参数在speechbrain中遇到的一些基础语法!ref :object是在当前yaml文件中定义的变量!new path:path是一个类的全名e.g.compute_feature:!new:speechbrain.lobes.features.Fban.

2021-07-10 22:21:20 522 1

原创 文献阅读:基于图的半监督学习在声音特征中的说话人分类的应用

论文论文:Speaker attribution with voice profiles by graph-based semi-supervised learning摘要  在许多实际应用中(例如会议转录),都需要说话人归因,其中会根据说话人语音配置文件将说话人身份分配给每种话语。在本文中我们提出使用半监督的学习方法解决说话人归因的问题,模型结构数据集结果...

2021-05-27 21:30:50 331 1

原创 文献阅读:基于图神经网络的会话级说话人嵌入改进

论文论文:** SPEAKER DIARIZATION WITH SESSION-LEVEL SPEAKER EMBEDDING REFINEMENT USING GRAPH NEURAL NETWORKS**摘要  模型结构数据集结果

2021-05-25 20:07:17 496 1

原创 文献阅读:Deep Speaker: an End-to-End Neural Speaker Embedding System

论文论文:Deep Speaker: an End-to-End Neural Speaker Embedding System摘要  我们提出了Deep Speaker,一个神经说话人嵌入系统,它把语音映射到一个超球面上,使用余弦相似性来衡量说话人相似性。Deep Speaker产生的嵌入可以用于许多任务中,包括说话人验证、识别和聚类。我们在实验中使用ResCNN和GRU结构去提取声学特征,然后是均值池化产生话语级的说话人嵌入,训练中使用了基于余弦相似性的三元组损失。在三个不同数据集上的实验表明

2021-04-26 21:06:07 797

原创 文献阅读:短时语音中具有三元组损失的端到端的文本无关的说话人验证

论文论文:**End-to-End Text-Independent Speaker Verification with Triplet Loss on Short Utterances **摘要  尽管最近在说话人识别的i-vec框架取得了进展,但针对短时语音的文本无关的说话人验证仍然是一个挑战。通常,为了得到一个具有鲁棒性的说话人表示,在最大后验自适应的步骤中需要足够多的数据,在短时条件下通常很难满足。为了克服这一点,我们提出了一个端到端的系统,它直接学习一个从语音特征到固定长度的说话人判别嵌

2021-04-23 21:58:58 305

原创 文献阅读:TRISTOUNET: TRIPLET LOSS FOR SPEAKER TURN EMBEDDING

论文论文:TRISTOUNET: TRIPLET LOSS FOR SPEAKER TURN EMBEDDING摘要  TristouNet是一种基于长短时记忆循环神经网络(LSTM)的神经网络结构,旨在将语音序列投影到一个固定维度的欧氏空间。得益于三元组损失范式在训练中的使用,使得embedding序列可以直接使用欧氏距离进行比较。在短语音轮(500ms-5s)和说话人改变检测中的实验表明,TristouNet在当前两种任务最先进的性能上获得了显著提升。PS:本文的引言部分梳理了说话人识别相关

2021-04-21 10:35:01 315 1

原创 文献阅读:X-VECTOR--用于说话人识别的鲁棒深度神经网络嵌入

论文论文:X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION摘要  被训练用于区分说话人的深度神经网络把可变长的话语映射为固定维度的embedding,也我们叫它x-vector。先前的研究发现这种embedding在利用大规模的训练数据集后性能优于了i-vector,但是搜集大量高质量的标记的训练数据是一个挑战,所以我们使用包含增加噪声和混响的数据增强来作为一种价格低廉的增加训练数据数量和提升鲁棒性的方法。x-vector在数据集WI

2021-04-18 20:34:24 1853

原创 文献阅读:基于时延深度神经网络的说话人识别通用背景模型

论文论文:TIME DELAY DEEP NEURAL NETWORK-BASED UNIVERSAL BACKGROUND MODELS FOR SPEAKER RECOGNITION摘要  DNN被引入i-vector说话人识别系统并取得了显著的性能提升。

2021-04-15 20:41:40 479

原创 文献阅读:基于深度神经网络的用于端到端说话人验证的说话人嵌入

论文DEEP NEURAL NETWORK-BASED SPEAKER EMBEDDINGS FOR END-TO-END SPEAKER VERIFICATION摘要

2021-04-12 09:31:42 492

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除