声纹
文章平均质量分 69
声纹项目
Robin_Pi
所有觉得难得东西,只是因为没有真正理解最基础的概念
展开
-
mac使用anaconda安装人声分离开源工具spleeter
mac安装人声分离开源工具spleeter原创 2023-06-07 10:37:16 · 2309 阅读 · 0 评论 -
kaldi 声纹识别系统(1)原理解析:基于x-vector
基于x-vector 的声纹识别系统框架细节目的:结合之前的理论,梳理出一个完整的样例(基于x-vector)框架细节原创 2021-01-19 11:10:24 · 984 阅读 · 0 评论 -
kaldi 声纹识别系统(2)代码解读:基于x-vector
Kaldi 脚本0. 预备知识:常用术语0.1 文件0.2 脚本名称和文件夹名run.pl1. 前端提取1.1 流控制脚本1.2 具体执行的脚本1.3 中间量2. 后端识别2.1 流程控制脚本plda-scoring.sh2.2 具体执行的脚本ivector-compute-pldaivector-plda-scoring计算对数似然比(LLR)主要用来明确kaldi声纹识别的具体流程,以及各个脚本背后源码的思路。0. 预备知识:常用术语0.1 文件.ark:archive,记录实际数据的表格(t原创 2021-01-18 17:28:26 · 1721 阅读 · 0 评论 -
语音质量评价指标:PESQ(已经过时)
PESQ概述PESQ 流程问题概述PESQ(Perceptual evaluation of speech quality)(语音质量的感知评估)是一种客观的、全参考的语音质量评估方法,其在国际电信联盟的标注化代号为ITU-T P.862。PESQ算法需要带噪的衰减信号和一个原始的参考信号,能够对客观语音质量评估提供一个主观MOS的预测值,而且可以映射到MOS刻度范围,PESQ得分范围在 -0.5–4.5 之间。得分越高表示语音质量越好。其实现代码如下(在Python中也可直接调用相应的pesq模块原创 2020-11-25 13:35:31 · 19990 阅读 · 7 评论 -
音频特征(3):各种与波相关的图的概念小结
各种波形图像的小结这里将上两篇所写的关于波形图的一些区分做一个小结:波形图意义振动图反应某一个质点随时间位移(振幅)变化的图像波形图反映各质点在同一时刻不同位移(振幅)的曲线时域图信号随时间振幅的变化频域图信号的不同频率分量的振幅语谱图(时频域图)信号的频率、幅值 随时间的变化关于波形图的解释,可以查看:“声音”背后的原理(1):波(横波、纵波、声波)、声音的采集、声音的储存...原创 2020-11-23 16:58:16 · 2834 阅读 · 0 评论 -
【sphinx】中文声学模型训练
点击原创 2020-11-17 18:39:11 · 567 阅读 · 0 评论 -
端到端的声纹识别
记录一些可参考项目:使用tensorflow和densenet神经网路实现语谱图声纹识别,即说话人识别【工程】深度说话人的应用及声纹识别系统的制作 (附完整代码与数据集)参考自:https://github.com/Walleclipse/Deep_Speaker-speaker_recognition_system?tdsourcetag=s_pctim_aiomsg基于Keras: jcfszxc /Project ...原创 2020-11-16 21:02:55 · 680 阅读 · 0 评论 -
Kaldi 报错:** split_data.sh: warning, #lines is (utt2spk,feats.scp) is (502,500); you can ** use uti
问题:使用Kaldi提取音频特征时候发生报错出现报错:** split_data.sh: warning, #lines is (utt2spk,feats.scp) is (502,500); you can ** use utils/fix_data_dir.sh data_test to fix this.排除和解决首先就是怀疑文件命名有问题果然,在本地仔细排查,发现了两个命名有些“不合群”的音频问题;可是修改之后依旧报错,再仔细检查还是没有其他发现;后来发现在Linux服务器上查看文件原创 2020-11-13 16:11:47 · 251 阅读 · 0 评论 -
音频特征(2):时域图
文章目录参考:使用wavread读取一段音频后怎么画出横坐标是时间的波形图原创 2020-11-12 15:00:38 · 9110 阅读 · 0 评论 -
“声音”背后的原理(3):音频信号处理的基础概念和流程小结
从音频信号到特征帧的处理流程:音频信号|采样与量化|分帧|加窗|特征提取|帧叠加与帧采样音频信号的特征一般分为时域特征和频域特征两大类,目前大部分实用系统都采用频域特征。特征:(傅里叶变换)|频域幅值特征|(进一步处理)|PLP或者MFCC梅尔倒谱系数(MFCC) 是语音领域最常用的特征。...原创 2020-11-11 18:00:04 · 3603 阅读 · 0 评论 -
Python 音频处理:wave
wave 模块提供了一个处理 WAV 声音格式的便利接口。它不支持压缩/解压,但是支持单声道/立体声。用法:wave.open(file, mode=None),mode为rb:生成 wav_read 对象wb:生成 wav_write 对象注意不支持同时读写。注:关于 r、w、rb、wbr和w是普通读和写文件(简单理解为人工编写的文件);rb和wb是读写二进制文件(简单理解为可以操作图片等非手工编写的文件)(1)Wave_read对象(2)Wave_write 对象...原创 2020-11-11 10:56:46 · 11005 阅读 · 0 评论 -
声纹识别:x-vector 的特征提取原理
文章目录框架细节(待完成)x-vector 基于DNN编码(详细可查看论文 Deep Neural Network Embeddings for Text-Independent Speaker Verification )框架##i-vector、d-vector、x-vector(1)i-vectori-vector 是一个不管输入多长的语音,都可以吐出一个400维的向量的模型。i-vector 并不是深度学习的模型,但是可以说是语音界最后一个被深度学习模型打败的模型,在16年左右,其效果原创 2020-11-09 17:36:55 · 10550 阅读 · 3 评论 -
Kaldi 脚本:split_data.sh
kaldi脚本注释:utils/split_data.sh原创 2020-11-04 10:02:28 · 387 阅读 · 0 评论 -
Kaldi说话人识别:基于x-vector 的plda自适应
@toc理论what and why自适应的作用是,补偿实际数据与已经训练的三音素模型中声学条件不匹配的问题,包括说话人特性(说话方式、口音等)及环境特性(如录音设备、房间混响等)。how代码...原创 2020-11-02 13:42:25 · 2572 阅读 · 2 评论 -
声纹识别技术小结(1):声纹建模技术
开集声纹辨认 :M个说话人的声纹识别问题——(M+1)元分类问题(M个说话人+一个冒名顶替者imposter)原创 2020-10-26 15:39:34 · 4323 阅读 · 2 评论 -
“声音”背后的原理(2):采样、量化和编码
音频处理的大致流程:音频——(采集设备)——模拟信号(连续)——(模数转换器ADC)——数字信号(离散)——编码——储存于计算机模拟信号数字化采样采样的原理很简单,就是按照固定的频率对模拟信号的振幅进行取值。这个频率,便是采样率,单位为赫兹,表示每秒钟取得的采样的个数。对于一个周期信号,至少需要采样两次:波峰和波谷各采样一次。在语音信号中,绝大部分的信息在10000Hz以下,所以通常20000Hz的采样率足以保留这些信息。但是,采样率越高,也往往意味着越大的计算量、储存量以及网络传输数据量。目前原创 2020-10-23 10:02:07 · 27516 阅读 · 0 评论 -
波的简单知识(声波为例)
最近在研究声纹相关的东西,不可避免地涉及音频信号处理相关的东西,发现有些基础的知识已经忘得差不多,借几个问题小结一下。(未加限定则波为横波,波速为光速)核心波长和频率的关系?波长:在横波中波长通常是指相邻两个波峰或波谷之间的距离。频率:单位时间内完成振动的次数,是描述振动物体往复运动频繁程度的量(之前一直没留意”震动“二字,现在才知道声音的产生,或者说波本身本质上就是一种震动)那到底如何理解波的频率?不如通过频率、波长和波速之间的关系来理解:波长与频率成反比。小结v = f*λ(其中,波速原创 2020-10-22 10:28:32 · 3420 阅读 · 0 评论 -
音频特征(2):时域图、频谱图、语谱图(时频谱图)
文章目录 时域和频域 1. 概述 2.(时域)波形和频域:用几张对比图来区分 2.1 时域和频域 2.2 区分:时频谱图(语谱图)原创 2020-10-21 17:37:07 · 82635 阅读 · 17 评论 -
“声音”背后的原理(1):波(横波、纵波、声波)、声音的采集、声音的储存
文章目录声音概述声音的产生声音的储存声音的识别声音概述声音是振动产生的声波,通过介质(气体、固体、液体)传播并能被人或动物听觉器官所感知的波动现象。声音作为波的一种,频率和振幅就成了描述波的重要属性,频率的大小与我们通常所说的音高对应,而振幅影响声音的大小。声音总可以被分解为不同频率不同强度正弦波的叠加。这种变换(或分解)的过程,称为傅立叶变换。声音的产生以扬声器的发声为示例,下图为动圈式扬声器的结构示意图。将线圈套在永久(固定)磁铁上,并通入电流,则线圈变为电磁铁;改变电流的方向和大小,则原创 2020-10-21 11:00:45 · 24688 阅读 · 11 评论 -
音频质量的评价方法:简单梳理
文章目录0. 概论语音质量评估一些概念1. 主观评价1.1 平均意见得分(MOS)失真等级评分(CMOS)ABX Test2. 客观评价PESQ单端方法P.563E-ModelNISQA0. 概论语音质量评估语音质量评估,就是通过人类或自动化的方法评价语音质量。在实践中,有很多主观和客观的方法评价语音质量。主观方法就是通过人类对语音进行打分,比如MOS、CMOS和ABX Test。客观方法即是通过算法评测语音质量,在实时语音通话领域,这一问题研究较多,出现了诸如如PESQ和P.563这样的有参考和无参原创 2020-10-19 13:35:52 · 20230 阅读 · 0 评论 -
ModuleNotFoundError: No module named ‘umap‘
问题from umap import UMAP 报错:ModuleNotFoundError: No module named 'umap'解决:重装pip uninstall umap # 如果已安装umap,删除umap包pip install umap-learn参考:ImportError: Cannot Import Name ‘UMAP’ from umap原创 2020-10-16 14:26:11 · 4701 阅读 · 0 评论 -
语音活性检测器 webrtcvad
目录概述安装使用脚本1. 测试静音片段2. 清理静音片段概述WebRTC是一个免费、开放的框架/项目。使web浏览器通过简单的JavaScript api接口实现实时通信功能。WebRTC:An open framework for the web that enables Real-Time Communications (RTC) capabilities in the browser.端点检测是语音信号处理中的重要一环,是各种语音任务的基础。WebRTC是谷歌开发的VAD,是当前最有效原创 2020-10-14 16:54:46 · 1408 阅读 · 0 评论 -
使用Python编辑音频:成功安装 webrtcvad
若是直接使用pip install webrtcvad,则很容易报错:Collecting webrtcvad Downloading https://files.pythonhosted.org/packages/89/34/e2de2d97f3288512b9ea56f92e7452f8207eb5a0096500badf9dfd48f5e6/webrtcvad-2.0.10.tar.gz (66kB) |███████████████████▉ | 40kB 10原创 2020-10-12 13:59:05 · 4077 阅读 · 3 评论 -
Kaldi 声纹识别·总章
Kaldi 声纹识别·总章理论代码主要记录自己的学习笔记。理论代码Kaldi 实战学习(1)说话人识别小例子(egs/aishell/v1)原创 2020-09-29 09:15:04 · 597 阅读 · 0 评论 -
Kaldi 实战学习(1)说话人识别小例子(egs/aishell/v1)
进入:~/kaldi/egs/aishell/v1# 地址变量(引号可省略,但是=之间不可有空格!)data=/export/a05/xna/datadata_url=www.openslr.org/resources/33# 载入引用文件(使用.,类似import). ./cmd.sh. ./path.sh# 设置bash出错则退出set -e # exit on error# 下载和解压数据(应该是两者选一)local/download_and_untar.sh $data $原创 2020-09-28 15:30:11 · 1113 阅读 · 1 评论 -
Kladi 报错:utt2spk is not in sorted order when sorted first on speaker-id
问题提取数据的xvector特征时报错:Preparing data_test ......cj_script/data_test_prep.sh: data preparation succeededutils/fix_data_dir.sh: file data_test/spk2utt is not in sorted order or not unique, sorting it- data_test/utt2spk differ: char 1, line 1utt2spk is no原创 2020-09-22 09:11:30 · 1496 阅读 · 0 评论 -
声纹识别概述(2)声纹识别原理和过程
结合:添加链接描述原创 2020-09-07 17:09:22 · 3453 阅读 · 0 评论 -
语音库的分析与评价
说话人识别(声纹识别)语音库的分析与评价,一般依据以下四个因素:1、说话人的数量和差异性2、说话人录音的次数及录音间隔3、语料的类型(固定的短语、带提示信息的数字、朗读句子、对话语音)4、录音设备,录制环境,传输信道影响因素选项人数录音方式多次重复录音、转录语音、录音回放语音采集设备宽带(麦克风)、窄带(电话、手机)录音环境安静、嘈杂录音内容数字串(普通话、英语、方言)、固定短文(普通话:60个音素和韵律分布平稳)、自由发言口音分布不同原创 2020-08-25 18:11:11 · 554 阅读 · 0 评论 -
声纹识别:如何获取最佳效果的阈值(通过计算ERR)?
摆在眼前的有几个问题:1、声纹识别与人脸识别的阈值获取方式一致么?(ROC曲线 or ERR曲线?)2、如何绘制 ROC 曲线?3、如何绘制 ERR 曲线?原创 2020-08-24 09:56:03 · 2229 阅读 · 0 评论 -
声纹识别概述(3)声纹识别系统
参考:声纹识别是个什么原理?原创 2020-08-20 18:20:04 · 6214 阅读 · 0 评论 -
声纹识别·总章
声纹识别1. 理论声纹识别基础声纹识别算法2. 资源声纹识别数据声纹识实践参考声纹识别关心的“谁在说”,用于解决生物身份确认和识别;而语音识别关心的“说了什么”,用于解决对说话内容的识别。1. 理论声纹识别基础声纹识别概述声纹识别流程声纹识别算法2. 资源声纹识别数据声纹识实践参考语音识别从入门到放弃参考:语音识别(八)——声纹识别, 地理...原创 2020-08-20 15:17:14 · 1656 阅读 · 0 评论 -
kaldi 声纹识别·资源汇总
kaldi 基础kaldi 使用样例表kaldi 实战语音识别从入门到放弃Kaldi 中的声纹识别原创 2020-08-20 15:13:17 · 877 阅读 · 0 评论 -
kaldi 使用样例表
参考:Kaldi 使用,egs下通用样例及功能小结(很硬,慎入)转载 2020-08-20 15:08:59 · 281 阅读 · 2 评论 -
声纹识别概述(1)初识
声纹识别初识声纹声纹概念声纹识别的原理声纹识别的技术指标影响声纹识别水平的因素初识声纹声纹概念声纹(Voiceprint)是用电声学仪器现实的携带言语信息的声波频谱, 是由波长频率以及强度等百余种特征维度组成的生物特征,具有稳定性、可测量性、唯一性等特点。每个人的语音声学特征既有相对稳定性,又有变异性,不是一成不变的。这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关。声纹识别的原理人声差异的主要方面:共鸣方式特征:咽腔共鸣、鼻腔共鸣和口腔共鸣嗓音纯度特征:不同人的嗓音,纯度一般原创 2020-08-19 14:08:12 · 11541 阅读 · 3 评论 -
Python返回列或行最大值对应的内容
文章目录现实场景数据方法现实场景有一堆数据,表示的是语音识别的效果(用相似度得分表示),需要找到每个测试人员最高分数对应的那个对象(判别结果)。数据data = {"tet":["Anna", "Anna", "Bob", "Bob"], "name":["Candy", "Duck", "Candy", "Duck" ], "scores":["254", "390", "450", "178"]}df = pd.DataFrame(data) df tet name scores原创 2020-08-18 10:10:01 · 3950 阅读 · 0 评论 -
Kaldi 测试报错:utils/split_scp.pl: Refusing to split data because number of speakers 2 is less than the
新建了一个文件夹robin存放两个人的音频数据(共2x10条wav音频)做测试,运行./test_cos.sh ~/kaldi/egs/sre16/v2/robin/sub_TIMIT_test在最后报错:sid/compute_vad_decision.sh: moving data_test/vad.scp to data_test/.backup utils/split_scp.pl: Refusing to split data because number of speakers 2 is le原创 2020-08-12 13:59:16 · 1202 阅读 · 0 评论 -
Kaldi 初识
文章目录参考:[语音识别] 11 从入门到精通原创 2020-08-12 09:21:51 · 307 阅读 · 0 评论