深度学习声纹识别
文章平均质量分 85
声纹识别与深度学习相关学习记录,最新顶级期刊论文翻译以及内容学习分享,坚持原创。
优惠券已抵扣
余额抵扣
还需支付
¥19.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
落雪snowflake
未来的博士!正在努力申请英国Phd!
展开
-
在非并行语音转换中传输源样式Transferring Source Style in Non-Parallel Voice Conversion
本研究提出了一种基于序列到序列的非并行VC方法,该方法能够通过显式建模将语音风格从源语音转换到转换语音。客观评价和主观听力测试表明,所提出的VC方法在语音自然性和说话人相似性方面具有优越性。实验结果还表明了该方法的源式可转移性翻译 2023-08-07 15:06:05 · 37 阅读 · 0 评论 -
Towards Low-Resource StarGAN Voice Conversion using Weight Adaptive Instance Norm向低资源的权重自适应语音转换实例规范化
Many-to-many voice conversion with non-parallel training data hasseen significant progress in recent years. It is challenging becauseof lacking of ground truth parallel data. StarGAN-based modelshave gained attentions because of their efficiency and eff翻译 2023-08-02 16:15:57 · 55 阅读 · 0 评论 -
语音文件分析
语音文件分析原创 2023-01-08 19:00:22 · 748 阅读 · 0 评论 -
声音产生感知简记
人的发音器官包括:肺、气管、声带、喉、咽、鼻腔、口腔、唇。肺部产生的气流冲击声带,产生震动。原创 2023-01-08 17:46:20 · 571 阅读 · 0 评论 -
智能语音标注工具小记
做深度学习语音智能处理方面所需要的标注工具原创 2023-01-08 16:46:17 · 1128 阅读 · 0 评论 -
声学特征提取普及笔记
声学特征预处理:预加重、分帧、加窗;声学特征提取:STFT、FBank、语谱图、MFCC声音信号分离原创 2023-01-08 12:33:10 · 953 阅读 · 0 评论 -
用于说话人验证的多查询多头注意力池和 Inter-TOPK 惩罚
在一些混淆的说话者上增加额外的类间topK惩罚。通过采用MQMHA和inter-topK惩罚翻译 2022-11-14 22:57:01 · 276 阅读 · 0 评论 -
声纹识别中PLDA的域自适应的通用框架
A GENERALIZED FRAMEWORK FOR DOMAIN ADAPTATION OF PLDA IN SPEAKER RECOGNITION2020顶会论文学习提出了一种用于说话人识别中的概率线性判别分析(PLDA)领域自适应的通用框架。它不仅包括几种现有的有监督的和无监督的域自适应方法,而且还使得可以灵活地使用不同域中的可用数据。(1)基于相关对齐的插值和(2)协方差正则化。所提出的基于相关性比对的插值方法与自适应之前的域外PLDA模型相比,将minCprimary降低了30.5%,并原创 2020-07-28 11:20:22 · 687 阅读 · 0 评论 -
使用未经监督的对抗性不变进行强力说话人识别
ROBUST SPEAKER RECOGN ITION USING UNSUPERVISED ADVERSARIAL INVARIANCERaghuveer Peri, Monisankha Pal, Arindam Jati, Krishna Somandepalli, Shrikanth NarayananSignal Analysis and Interpretation Laboratory, University of Southern California, Los Angeles, CA翻译 2020-07-23 20:17:55 · 288 阅读 · 0 评论 -
声纹识别中深度学习实践应用之一-------------------------------------------------------------------------------特征提取方面
声纹识别,也就是说话人识别,利用计算机识别说话人的身份ID,相当于说话人的身份证一样的标识。通过建立声纹识别系统模型,通过数据训练,更新参数计算,最后确立一个比较不错的模型。但是语音数据的标签如果纯靠人工的话是非常的吃力的,建议在市场上找一些比较不错的公司的声纹识别系统,进行智能标签,然后再人工校对出错标签。说话人在空气生理综合特征,比如说口腔、肺、鼻腔等大小和构造的差异性,空气的气流速度,说话人的生活习惯,个人成长环境,感冒咳嗽等外在身体状态,都会使得说话人说出话产生的语...原创 2020-05-29 18:11:32 · 1262 阅读 · 0 评论 -
声纹识别算法 -----未来会怎么样
其实,看了很多文章,但是我还是迷糊 ,可能做语音得都带去学台湾国立大学一门语音信号处理过程基础课,或许对你走这个领域得AI更有帮助。感谢你们关注我。等我忙完 ,会整理一波学习资料。...原创 2020-03-22 00:30:58 · 629 阅读 · 3 评论 -
PLDA对说话人身份与多重滋扰条件联合建模的推广
A Generalization of PLDA for Joint Modeling of Speaker Identity and Multiple Nuisance Conditions PLDA对说话人身份与多重滋扰条件联合建模的推广uciana Ferrer1,Mitchell McLaren21Incituto de Investigacio'n en Ciencias...翻译 2018-11-13 20:12:14 · 267 阅读 · 0 评论 -
扬声器嵌入框架中的互补信息源分析
扬声器嵌入框架中的互补信息源分析Analysis of Complementary Information Sources in the Speaker Embeddings FrameworkMahesh Kumar Nandwana,Mitchell McLaren,Diego Castan,Julien van Hout,Aaron Lawson美国加利福尼亚州门洛帕克SRI国际语...翻译 2018-12-01 20:31:29 · 137 阅读 · 0 评论 -
语音文件预处理用speechpy模块库处理 翻译官网文档
预处理用于信号处理操作的处理模块。该模块演示了信号处理功能的文档,这些文档是包中的内部计算所必需的。ivar preemphasis: 专注于信号。这是一个预处理步骤。 ivar stack_frames: 从原始信号创建堆叠帧。 ivar fft_spectrum: 快速傅立叶变换的计算。 ivar power_spectrum:...翻译 2019-04-24 15:17:17 · 610 阅读 · 2 评论 -
特征模块python中speechpy模块函数翻译 其中排列是array类型
功能功能模块。该模块提供用于计算包旨在提取的主要语音特征以及所需元素的功能。功能:filterbanks:计算Mel-filterbanks必须创建滤波器组以提取诸如MFCC之类的语音特征。mfcc:提取梅尔频率倒谱系数特征。mfe:提取Mel Energy功能。lmfe:提取Log Mel Energy功能。extract_derivative_featur...翻译 2019-04-24 15:38:29 · 392 阅读 · 0 评论 -
speechpy模块中用于信号处理操作的处理模块部分 PYTHON
后处理用于信号处理操作的处理模块。该模块演示了信号处理功能的文档,这些文档是包中的内部计算所必需的。ivar preemphasis: 专注于信号。这是一个预处理步骤。 ivar stack_frames: 从原始信号创建堆叠帧。 ivar fft_spectrum: 快速傅立叶变换的计算。 ivar power_spectrum:...翻译 2019-04-24 15:44:06 · 346 阅读 · 0 评论 -
speechpy测试包
测试测试包安装软件包后,可以直接运行测试文件以显示结果。测试示例test/test_package.py如下所示:import scipy.io.wavfile as wavimport numpy as npimport speechpyimport osfile_name = os.path.join(os.path.dirname(os.path.abspath(__...翻译 2019-04-24 15:48:00 · 309 阅读 · 0 评论 -
numpy.zeros()函数翻译
numpy.zeros¶numpy.zeros(shape,dtype=float,order='C')Return a new array of given shape and type, filled with zeros.Parameters: shape:int or tuple of ints Shape of the new array, e....翻译 2019-04-24 16:20:51 · 484 阅读 · 0 评论 -
说话人概述
技术专题】说话人识别(Speaker Verification)综述Posted on 2018-07-10 | In Speaker Verification | | Visitors: 404Words count in article: 4.3k | Reading time ≈ 16技术介绍技术应用声纹识别(speaker verification),也称做说话...转载 2019-05-20 22:25:55 · 1052 阅读 · 0 评论 -
constants模块官方文档
Project descriptionThe problem?Most applications use constants. Many constants take different values based on the environment the application is executed in.Think database credentials over devel...翻译 2019-05-16 12:14:58 · 1167 阅读 · 0 评论 -
roc图转发
http://www.ecohnoch.cn/2018/12/19/shuxue82/我制作的工程代码在这:Tiny_Face_RecognitionArcFace论文:https://arxiv.org/abs/1801.07698参考代码:https://github.com/deepinsight/insightface/blob/master/src/eval/verifica...转载 2019-05-17 21:07:48 · 352 阅读 · 0 评论 -
MTGAN:通过多任务三元生成对抗性网络对说话人进行验证
MTGAN: Speaker Verification through Multitasking Triplet Generative Adversarial NetworksMTGAN:通过多任务三元生成对抗性网络对说话人进行验证摘要在本文中,我们提出了一种增强的三元组方法,它通过联合利用生成对抗机制和多任务优化来改进嵌入的编码过程。 我们扩展了具有生成性对抗网络(GAN)和soft...翻译 2018-11-27 19:10:13 · 1502 阅读 · 0 评论 -
基于条件生成对抗网络的I-向量变换在短说话人验证中的应用
I-vector Transformation Using Conditional Generative Adversarial Networks for Short Utterance Speaker Verification基于条件生成对抗网络的I-向量变换在短说话人验证中的应用用于短话语说话人验证的条件生成对抗网络的I向量变换 摘要 基于I向量的文本无关说话人验证(S...翻译 2018-12-04 20:00:00 · 697 阅读 · 0 评论 -
用于文本相关说话人验证的J-Vector提取器和联合贝叶斯模型的联合学习
Joint Learning of J-Vector Extractor and Joint Bayesian Model for Text Dependent Speaker VerificationZiqiang Shi, Liu Liu, Huibin Lin, Rujie Liu用于文本相关说话人验证的J-Vector提取器和联合贝叶斯模型的联合学习施自强,刘柳,林惠彬,刘如杰...翻译 2018-11-14 14:24:05 · 693 阅读 · 0 评论 -
在与文本无关的说话人识别中补偿域不匹配
Compensation for domain mismatch in text-independent speaker recognition翻译 2018-11-14 13:20:18 · 223 阅读 · 0 评论 -
学习说话人识别和验证的判别特征
Learning Discriminative Features for Speaker Identification and Verification学习说话人识别和验证的判别特征摘要任何文本独立的说话者识别和/或验证系统的成功依赖于系统学习辨别特征的能力。在本文中,我们提出了一种基于流行的非常深VGG [1] CNN的卷积神经网络(CNN)架构,通过关键修改来适应可变长度频谱图...翻译 2018-11-15 19:37:21 · 1564 阅读 · 0 评论 -
一种用回归神经网络学习说话人嵌入的无监督神经网络预测框架
An Unsupervised Neural Prediction Framework for Learning Speaker Embeddings using Recurrent Neural Networks一种用回归神经网络学习说话人嵌入的无监督神经网络预测框架摘要本文提出了一种无监督的训练框架,用于使用神经预测编码(NPC)技术学习特定于说话者的嵌入。我们采用回归神经网络(R...翻译 2018-11-13 21:05:35 · 406 阅读 · 0 评论 -
LOCUST - 用于说话人验证的纵向语料库和工具集
LOCUST - Longitudinal Corpus and Toolset for Speaker Verification摘要在本文中,我们提出了一个新的纵向语料库和工具集,以努力解决语音老化对说话人验证的影响。我们已经检查过以前对年龄相关语音变化的纵向研究以及它对现实世界用例的适用性。我们的研究结果表明,科学家们将与年龄相关的语音变化视为一种障碍,而不是利用身份验证者的优势。...翻译 2018-11-13 20:34:23 · 498 阅读 · 0 评论 -
KALDI之aishell之V1模型续进行VAD检测
上面特征提取貌似没完事了VAD是语音激活检测算法,用于判断什么时候有语音输出,什么时候是静音状态。下面进入/kaldi-trunk/egs/aishell/v1/sidvim compute_vad_decision.sh第22行显示 echo "e.g.: $0 data/train exp/make_vad mfcc" 然后在/kaldi-trunk/egs/ai...原创 2018-11-07 21:21:51 · 2419 阅读 · 0 评论 -
Co-whitening of i-vectors for short and long duration speaker verification用于短期和长期说话者验证的i向量的共同白化
Co-whitening of i-vectors for short and long duration speaker verification论文翻译用于短期和长期说话者验证的i向量的共同白化摘要 I-vector是语音话语的固定长度和低等级表示。它已广泛用于与文本无关的说话人验证。理想情况下,来自同一说话者的语音话语将映射到唯一的i-vectors。但是,由于某些内在和外在...翻译 2018-11-07 14:23:06 · 411 阅读 · 0 评论 -
X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION论文翻译
X-VECTORS:稳健的DNN嵌入式,用于声纹识别摘要 在本文中,我们使用数据增强来提高深层神经网络(DNN)嵌入对于说话人识别的性能。 DNN经过训练以区分说话者,将可变长度的话语映射到我们称为x向量的固定维度嵌入。之前的研究发现,嵌入比i向量更好地利用大规模训练数据集。但是,收集大量用于训练的标记数据可能具有挑战性。我们使用数据增加,包括增加的噪声和回报,作为一种廉价的方法来增加...翻译 2018-11-07 10:35:28 · 3071 阅读 · 0 评论 -
ivector/plda-test.cc源码读书笔记
// ivector/plda-test.cc// Copyright 2013 Daniel Povey// See ../../COPYING for clarification regarding multiple authors//// Licensed under the Apache License, Version 2.0 (the "License");// yo...原创 2018-11-09 21:12:20 · 238 阅读 · 0 评论 -
用于文本相关语音验证的基于注意的模型
摘要基于注意力的模型最近在一系列任务上表现出很好的表现,例如语音识别,机器翻译和图像字幕,因为它们能够汇总在输入序列的整个长度上扩展的相关信息。 在本文中,我们分析了注意机制在端到端文本相关说话人识别系统中对序列汇总问题的使用。 我们探索了注意层的不同拓扑及其变体,并比较了注意力量的不同汇集方法。 最后,我们表明,与我们的非注意力LSTM基线模型相比,基于注意力的模型可以将我们的说话人验证系统的等错误率(EER)提高14%。索引术语 - 基于注意的模型,序列汇总,说话人识别,汇集,LSTM原创 2018-11-06 16:29:33 · 311 阅读 · 0 评论 -
关于声纹识别数据集VoxCeleb下载问题
虽然这个数据集是开源的http://www.robots.ox.ac.uk/~vgg/data/voxceleb/,但是需要申请,下面讲一下如何申请以及它所包含的内容;打开网址http://www.robots.ox.ac.uk/~vgg/data/voxceleb/,找到download然后开始点击voxceleb1或者voxceleb2或者Models中的任何一个(j举例:这里点击就...原创 2018-11-12 20:30:02 · 8415 阅读 · 24 评论 -
说话人识别的带宽扩展研究
Investigation on Bandwidth Extension for Speaker Recognition翻译 2018-11-20 15:34:48 · 331 阅读 · 0 评论 -
使用Mises-Fisher混合器实现自然音频流的鲁棒说话人聚类
Robust Speaker Clustering using Mixtures of von Mises-Fisher Distributions for Naturalistic Audio Streams使用Mises-Fisher混合器实现自然音频流的鲁棒说话人聚类 使用Mises-Fisher混合器实现自然音频流的鲁棒说话人聚类摘要 演讲者Diarization(...翻译 2018-11-20 16:17:17 · 478 阅读 · 0 评论 -
基于原始波形的端到端DNN中避免说话人过拟合的文本无关说话人验证
Avoiding Speaker Overfitting in End-to-End DNNs using Raw Waveform for Text-Independent Speaker Verification 基于原始波形的端到端DNN中避免说话人过拟合的文本无关说话人验证Avoiding Speaker Overfitting in End-to-End DNNs using...翻译 2018-12-04 18:44:37 · 626 阅读 · 1 评论 -
用于重尾PLDA的快变分贝叶斯应用于i-vector和x-vector
Fast variational Bayes for heavy-tailed PLDA applied to i-vectors and x-vectors最小发散增强导致更快的收敛和良好校准的最终结果。再次,pos-三次精度B¯i是可相互对角化的,每次迭代只需要对B0进行单个本征分析。的培训和评分算法,该模型的开放源代码实现,可在github.com/b...翻译 2018-11-18 16:34:23 · 916 阅读 · 0 评论 -
声纹识别的语言依赖前端分析
Analysis of Language Dependent Front-End for Speaker Recognition声纹识别的语言依赖前端分析摘要在基于深度神经网络(DNN)i-vector的说话人识别系统中,训练用于自动语音识别的声学模型。基于DNN的声学模型通常使用像英语这样资源充足的语言进行训练。在登记和测试数据不是英语的评估条件下,如在NIST SRE 2016数据...翻译 2018-11-18 15:46:52 · 657 阅读 · 0 评论 -
监督的i-矢量建模 - 理论与应用
Supervised i-vector Modeling - Theory and Applications ...翻译 2018-11-17 20:45:04 · 164 阅读 · 0 评论