Kaldi学习
Dr. 卷心菜
PhD在读|音频信号处理|机器学习|音乐信号处理
展开
-
Ubuntu下编译安装zlib
zlib官方网站:http://www.zlib.net上下载源码来安装zlib软件包。目前最新版本zlib是zlib1.2.11,安装开始;$wget http://www.zlib.net/zlib-1.2.11.tar.gz解压下载的包:$tar -xvzf zlib-1.2.11.tar.gz到下载的包里进行编译:$cd zlib-1.2.11.tar.gz$....原创 2019-03-01 10:44:47 · 1407 阅读 · 0 评论 -
KALDI中ivector提取过程
1. 生成 wav.scp,spk2utt,utt2spk./local/data_prep.sh /home/yixin/kaldi/egs/clarinet/data/clarinet_audio/wav /home/yixin/kaldi/egs/clarinet/data/clarinet_audio/transcript# 生成第三个文件 Making spk2utt f...原创 2019-05-13 15:02:03 · 4048 阅读 · 0 评论 -
kaldi 用ivector计算plda出错
运行结果如下:===== FEATURES EXTRACTION =====steps/make_mfcc.sh --cmd run.pl --nj 1 data/train exp/make_mfcc/train mfccsteps/make_mfcc.sh: moving data/train/feats.scp to data/train/.backupsteps/make...原创 2019-04-13 21:53:41 · 1570 阅读 · 3 评论 -
Kaldi 查看不同文件用到的命令
* 1.ark,scp文件~/kaldi/src/featbin/copy-featsark:raw_mfcc_dev.10.arkark,t:-|headark存的试二进制文件,scp可以直接用cat命令看。*2.fst文件~/kaldi/tools/openfst-1.6.2/bin/fstprintL.fst|head-n10~/kaldi/t...转载 2019-04-13 20:18:29 · 437 阅读 · 0 评论 -
Kaldi中特征文件格式的转换
1、kaldi中的ark文件与htk中的mfcc文件的互相转换(1)、ark转mfcc 使用底层命令copy-feats-to-htkSave features as HTK files:每个发音会转化为一个对应的htk格式的特征文件,后缀可以自己定义用法...转载 2019-04-16 18:30:07 · 1142 阅读 · 0 评论 -
Kaldi 运行报错:fix_data_dir.sh: no utterances remained: not proceeding further.
The fix_data_dir.sh script eliminates some utterances if something is missing from one of the files needed (e.g. text, feats.scp, wav.scp) so if you had an empty or invalid wav.scp at input, it would...原创 2019-04-09 16:49:06 · 1833 阅读 · 2 评论 -
声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型
GMM-UBMGMM:均值、方差、权重UBM:共性特征i-vectorMAP说话人自适应m:UBM的均值(已知)s:把UBM针对特定说话人调整成GMM,GMM的均值(通过特征得到)T:训练得到w:特定说话人的ivector一般只更新均值,不更新方差DNN-based ivectord-vector输入之前的30帧和之后的10帧,总共4...原创 2019-04-11 22:25:52 · 3639 阅读 · 0 评论 -
声纹识别笔记(一)实验平台 常用特征 神经网络模型
发展源流: GMM -- ivector -- DNN背景介绍评价指标设置一个阈值,高于这个阈值的为True,低于则不接受用softmax输出一个概率Accuracy,则EER ~(1-ACC)/2。 e.g. Accuracy = 80% EER = (1-0.8)/2 = 10%实验结果越好,阈值选取越高,一般作为评价指标。EER是(一个分类器的)ROC曲线(接...原创 2019-04-11 21:34:03 · 3149 阅读 · 0 评论 -
kaldi中声纹识别ivector模型
1.数据准备:无论使用kaldi来做语音识别还是说话人识别,第一步就是数据准备,对于说话人识别来说,需要准备的几个文件为wav.scp,utt2spk,spk2utt这三个文件。对应的格式如下: 1.1 wav.scp有两列,第一列是key,这个可以一定要唯一;第二列是 wav的路径wavpath; 1.2 utt2spk也有两列,第一列是key,与wav.scp的第一列一样;...原创 2019-04-11 17:03:15 · 4557 阅读 · 2 评论 -
Kaldi在compute-vad-decision时,无法生成vad.scp
问题描述:在compute-vad-decision时,无法生成vad.scp,查看log中写到:compute-vad: command not found。Log中:解决方法:在path.sh中加入$KALDI_ROOT/src/ivectorbin/解决思路:找不到compute-vad这个可执行文件,检查src/ivectorbin中有没有这个文件 重新编译...原创 2019-04-10 12:47:28 · 727 阅读 · 0 评论 -
Kaldi计算MFCC报错:kaldi WaveData: unsupported bits_per_sample=24
原因: kaldi不支持24位深解决方法:利用sox工具写个脚本将音频文件的位深改成16sox工具的使用见:https://blog.csdn.net/veritasalice/article/details/88634987原创 2019-03-18 11:32:47 · 719 阅读 · 0 评论 -
SOX命令:音频位深度、采样率以及码率
(一)位深度(bit-per-sample)。位深度也叫采样位深,音频的位深度决定动态范围。我们常见的16Bit(16比特),可以记录大概96分贝的动态范围。那么,您可以大概知道,每一个比特大约可以记录6分贝的声音。同理,20Bit可记录的动态范围大概就是120dB;24Bit就大概是144dB。假如,我们定义0dB为峰值,那么声音振幅以向下延伸计算,那么,CD音频可的动态范围就是"-96...原创 2019-03-18 11:23:30 · 9656 阅读 · 0 评论 -
Kaldi安装与编译报错
EnvironmentRule number 1 - use Linux. Although it is possible to use Kaldi on Windows, most people I find trustworthy convinced me that Linux will do the job with the less amount of problems. I have...原创 2019-03-01 14:50:03 · 913 阅读 · 0 评论 -
将特征文件导入kaldi格式转换
将txt转成ark格式: ~/kaldi/src/featbin/copy-feats ark,t:train.txt ark:train.ark txt转化为ark查看ark文件:~/kaldi/src/featbin/copy-feats ark:raw_mfcc_train.1.ark ark,t:- | head生成scp文件: ~/k...原创 2019-04-30 09:44:25 · 367 阅读 · 0 评论