aig8440-CSDN博客

转载深度学习语音降噪总结

　　实时语音通信发展到今天，用户对通话语音质量提出了越来越高的要求。由于终端设备的多样性以及使用场景的差异，声音问题依然存在。传统的音频处理技术从声音信号本身出发，挖掘其时频特性，作出假设，建立物理模型，很多参数都需要人工进行精细化微调，比较费时费力。随着AI技术的发展，凭借着其强大的拟合能力，利用数据驱动，为改善音频体验提供了更多的可能性。关于理论部分，包括论文有很...

2019-03-14 14:28:00 1798

转载语音识别的降噪思路和总结

　　噪声问题一直是语音识别的一个老大难的问题，在理想的实验室的环境下，识别效果已经非常好了，之前听很多音频算法工程师抱怨，在给识别做降噪时，经常发现WER不降反升，降低了识别率，有点莫名其妙，又无处下手。　　刚好，前段时间调到了AIlab部门，有机会接触这块，改善语音识别的噪声问题，虽然在此之前，询问过同行业的朋友，单通道近场下，基本没有太大作用，有时反而起到反作用，但是自己还是想亲...

2019-03-13 16:32:00 995

转载如何用kaldi做孤立词识别三

这次wer由15%下降到0%了，后面跑更多的模型LOG (apply-cmvn[5.2.124~1396-70748]:main():apply-cmvn.cc:162) Applied cepstral mean normalization to 20 utterances, errors on 0200_001_001 espresso LOG (gmm-latgen-fas...

2017-10-13 11:28:00 472

转载如何用kaldi做孤立词识别二

基本模型没有变化，主要是调参，配置：%WER 65% 下降到了 15%后面再继续优化...Graph compilation finish!steps/decode.sh --nj 1 --cmd utils/run.pl exp/mono0/graph_tgpr data/waves_test exp/mono0/decode_waves_testdeco...

2017-09-29 16:31:00 372

转载脚本注释3

2017-09-29 16:27:00 233

转载 [转] kaldi中FST的可视化-以yesno为例

http://blog.csdn.net/u013677156/article/details/778936611、kaldi解码过程kaldi识别解码一段语音的过程是：首先提取特征，然后过声学模型AM，然后过解码网络HCLG.fst，最后输出识别结果。HCLG是解码时的重要组成部分。HCLG.fst是由4个fst经过一系列算法（组合、确定化和最小化等）组合而成的。4个fst...

2017-09-29 15:38:00 220

转载如何用kaldi做孤立词识别-初版

------------------------------------------------------------------------------------------------------------------------------------------------------孤立词参考的例子就是yes/no脚本。----------------------...

2017-09-26 15:53:00 446

转载 [转]语言模型训练工具SRILM

SRILM是一个建立和使用统计语言模型的开源工具包，从1995年开始由SRI 口语技术与研究实验室（SRI Speech Technology and Research Laboratory）开发，现在仍然不断推出新版本，被广泛应用于语音识别、机器翻译等领域。这个工具包包含一组C++类库、一组进行语言模型训练和应用的可执行程序等。利用它可以非常方便地训练和应用语言模型。给定一组连续的词，...

2017-09-25 18:15:00 424

转载 [转]kaldi 神经网络

转自：http://blog.csdn.net/xmdxcsj/article/details/54695506overviewtypeauthorCPU/GPUfeaturennet1KarelGPU单卡训练使用pre-training，使用early stoppingnnet2Dan支持多GPU训练，以及多CPU多线程...

2017-09-22 10:08:00 191

转载 [转]kaldi ASR: DNN训练

作者：zqh_zy链接：http://www.jianshu.com/p/c5fb943afaba來源：简书著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。本文通过简单kaldi源码，分析DNN训练声学模型时神经网络的输入与输出。在进行DNN训练之前需要用到之前GMM-HMM训练的模型，以训练好的mono模型为例，对模型进行维特比alignement（对...

2017-09-21 11:34:00 256

转载 [转]Kaldi命令词识别

转自：http://www.jianshu.com/p/5b19605792ab?utm_campaign=maleskine&utm_content=note&utm_medium=pc_all_hots&utm_source=recommendationhttp://www.jianshu.com/p/6338fab6bd0a刚刚拿到一个简单语...

2017-09-21 11:26:00 436

转载 [转] 如何用kaldi训练好的模型做特定任务的在线识别

转自：http://blog.csdn.net/inger_h/article/details/52789339在已经训练好模型的情况下，需要针对一个新任务做在线识别应该怎么做呢？一种情况是，用已有的声学模型和新训练的语言模型。语言模型可以同srilm等工具训练，但是怎样将语言模型与DNN声学模型结合一起来进行识别的。SRILM可以用来训练ARPA格式的LM，假...

2017-09-21 10:49:00 536

转载 [转]异常声音检测之kaldi DNN 训练

转自：http://blog.csdn.net/huchad/article/details/52092796使用kaldi的DNN做音频分类，异常声音检测。HMM/GMM -》 HMM/DNN基本上沿用语音识别的思路，有两点注意一下即可。1. 在训HMM/GMM时，训到monophone即可，使用monophone的HMM与alignment来训DNN2.语言...

2017-09-21 10:47:00 308

转载 [转]kaldi基于GMM做分类问题

转自：http://blog.csdn.net/zjm750617105/article/details/55211992对于每个类别的GMM有几种思路：第一是将所有训练数据按类别分开，每类的数据训练一个GMM模型第二是将所有的数据训练一个UBM模型，然后将训练数据按类别分开，用MAP去训练每个类别的GMM（对角UBM的MAP貌似kaldi 没有）第三就是将所有的数据训练一个U...

2017-09-21 10:40:00 225

转载语音识别-声学模型算法发展历程

参考：https://zhuanlan.zhihu.com/p/24979135?refer=ycgkk转载于:https://www.cnblogs.com/welen/p/7553053.html

2017-09-19 17:42:00 230

转载 kaldi 运行voxforge例子

-------------------------------------------------------------------------------------------------------------------------------------------------------------运行getdata.sh，下载voxforge语音库修改cmd.sh...

2017-09-19 11:04:00 520

转载 [转]Kaldi语音识别

转：http://ftli.farbox.com/post/kaldizhong-wen-shi-bieKaldi语音识别1.声学建模单元的选择1.1对声学建模单元加入位置信息2.输入特征3.区分性技术4.多音字如何处理？5.Noise Robust ASR 6.Deep Learning[DNN/CNN替换GMM]7.在手机等资源受限设备a...

2017-09-18 17:50:00 240

转载 kaldi运行thchs30例子

首先，thchs30有两种数据库，kaldi运行的数据库最好是 thchs30-openslr。修改run.sh里面的语音库路径 thchs30=...修改nj线程数等于CPU的核心数修改cmd.sh queue.pl 改为run.pl本地机器跑运行出现错误:lexicon.txt验证出错里面binary file matches这是grep的问...

2017-09-18 15:10:00 358

转载 kaldi的TIMIT实例三

============================================================================ MMI + SGMM2 Training & Decoding ===================================...

2017-09-15 17:59:00 394

转载 kaldi的TIMIT实例二

============================================================================ MonoPhone Training & Decoding ===================================...

2017-09-15 12:09:00 252

转载 kaldi的TIMIT实例一

TIMIT语音库是IT和MIT合作音素级别标注的语音库，用于自动语音识别系统的发展和评估，包括来自美式英语，8个地区方言，630个人。每个人读10个句子，每个发音都是音素级别、词级别文本标注，16kHz,16bit。注意：不用使用TIMIT配置作为运行Kaldi的一个通用型例子，因为它不是一个非常标准的结构。其它的一些配置也是非常好用的。----------------...

2017-09-15 11:40:00 224

转载 kaldi脚本注释二

2017-09-14 17:31:00 345

转载 kaldi脚本注释一

2017-09-14 15:58:00 193

转载 [转]kaldi特征和模型空间转换

转：http://blog.csdn.net/shmilyforyq/article/details/76807431博主话：这篇博客是对kaldi官网中Feature and model-space transforms in Kaldi 的翻译，因为不是专业翻译人士，接触kaldi时间也不长，所以难免有纰漏之处，希望读者如果有更好的建议和意见，可以在下面留言，有助于更好的交流...

2017-09-13 17:06:00 243

转载 [转]kaldi中的特征提取

转：http://blog.csdn.net/wbgxx333/article/details/25778483本翻译原文http://kaldi.sourceforge.net/feat.html，由@煮八戒翻译，@wbglearn校对和修改。特征提取简介我们做特征提取和波形读取的这部分代码，其目的是为了得到标准的MFCC(译注：梅尔倒谱系数)和PLP(译注：感知...

2017-09-13 17:02:00 228

转载 [转]kaldi上的深度神经网络

转：http://blog.csdn.net/wbgxx333/article/details/41019453 深度神经网络已经是语音识别领域最热的话题了。从2010年开始，许多关于深度神经网络的文章在这个领域发表。许多大型科技公司（谷歌和微软）开始把DNN用到他们的产品系统里。（备注：谷歌的应该是google now，微软的应该是win7和win8操作系统里的语音识别和他的S...

2017-09-13 16:44:00 178

转载 [转]语音识别中区分性训练（Discriminative Training）和最大似然估计（ML）的区别...

转：http://blog.sina.com.cn/s/blog_66f725ba0101bw8i.html关于语音识别的声学模型训练方法已经是比较成熟的方法，一般企业或者研究机构会采用HTK工具包、Kaldi等进行训练，目前从声学模型出发，提高系统性能的主要策略主要有：1）增加训练数据。不同的训练数据也会对模型有一定的影响，例如，数据的男女均衡性、采集数据的cha...

2017-09-13 16:23:00 329

转载 [转]kaldi中的在线识别----Online Recognizers

转自：http://blog.csdn.net/wbgxx333/article/details/24932533本文是kaldi学习联盟中@冒顿翻译的，下面是@冒顿的翻译结果，在这里感谢@冒顿的辛勤劳动，希望更多的人加入到这个翻译上来，为更多的人学习……因为我们翻译的文档都有url，csdn不支持我们的直接发表，所以只能用图片，最后的翻译会集成pdf版，后面会公开的。...

2017-09-13 11:30:00 137

转载 [转]决策树在Kaldi中如何使用

转自：http://blog.csdn.net/chenhoujiangsir/article/details/51613144说明：本文是kaldi主页相关内容的翻译（http://kaldi-asr.org/doc/tree_externals.html）。目前网上已经有一个翻译的版本，但翻译的不是很清楚，导致我在刚学这部分内容的时候产生了一些误解，所以我希望结合我目前所知道的一...

2017-09-12 17:48:00 289

转载 [转]data-driven与决策树聚类的两种方法

参考文章：http://blog.csdn.net/quheDiegooo/article/details/60873999http://blog.csdn.net/quhediegooo/article/details/61202901在发音过程中，因为协同发音的影响，同一个音素在不同的位置，其发音变化很大，如下图所示：同样的元音[eh]在不同的单词中的发音在频域...

2017-09-12 16:34:00 285

转载从单音素到三音素模型

参考文章：《Tree-Based State Tying for High AccuracyAcoustic ModellingBasicsTriphone TyingDecision Trees 》,S.J. Young, J.J. Odell, P.C. Woodland 1994.1.为什么要用三音素建模单音素建模没有考虑协同发音效应，也就是上下文音素会对当前...

2017-09-12 14:35:00 503

转载 [转] 语音识别基本原理介绍----gmm-hmm中的embedded training （嵌入式训练）

转自：http://blog.csdn.net/wbgxx333/article/details/38986507本文是翻译SpeechandLanguageProcessing:Anintroductiontonaturallanguageprocessing, computationallinguistics,andspeechrecognition....

2017-09-11 16:36:00 170

转载 Kaldi单音素模型训练部分

在Kaldi中，单音素GMM的训练用的是Viterbi training，而不是Baum-Welch training。因此就不是用HMM Baum-Welch那几个公式去更新参数，也就不用计算前向概率、后向概率了。Kaldi中用的是EM算法用于GMM时的那三个参数更新公式，并且稍有改变。　　Baum-Welch算法更新参数时，因为要计算前向后向概率，很费时间，因此使用Viter...

2017-09-11 15:22:00 281

转载创建自己的语音识别系统

Data preparationAudio data自己创建数据集：10个不同的说话人每个人说10句话每句话包含3个词总共300个词，(数字0～9)Taskkaldi-trunk/egs/digits创建digits_audio文件夹，然后digits_audio,再创建trainandtest两个文件夹。以说话人的ID命名文件夹，存放该说话人的...

2017-09-08 17:40:00 409

转载 kaldi实例脚本运行

Getting started, and prerequisites.rm/s5/run.shData preparation如果有GridEngine,train_cmd="queue.pl -q all.q@a*.clsp.jhu.edu"decode_cmd="queue.pl -q all.q@[ah]*.clsp.jhu.edu"如果需要在本地运行t...

2017-09-08 14:42:00 218

转载 Kaldi如何准备自己的数据

Introduction跑完kaldi的一些脚本例子，你可能想要自己用Kaldi跑自己的数据集。这里将会阐述如何准备好数据。run.sh较上的部分是有关数据准备的，通常local与数据集相关。例如：RM数据集local/rm_data_prep.sh /export/corpora5/LDC/LDC93S3A/rm_comp || exit 1;utils/pre...

2017-09-07 18:17:00 618

转载语音识别概述

后验概率最大，即为判别结果HTK Hvite解码器 Sphinx解码器 TODE解码器，生硬，修改繁琐。WFST 扩充，简单高效。有限状态机模型被用于大词汇量连续中文语音识别系统中。其操作思路是将传统语音识别系统中的数学模型，分别转换成有限状态机模型，再将转换后的模型进行有效地整合及优化，得到搜索空间。有限状态自动机（Finite-state Aut...

2017-09-07 15:40:00 176

转载 yesno孤立词识别kaldi脚本

path.sh主要设定路径等export KALDI_ROOT=`pwd`/../../..[ -f $KALDI_ROOT/tools/env.sh ] && . $KALDI_ROOT/tools/env.shexport PATH=$PWD/utils/:$KALDI_ROOT/tools/openfst/bin:$PWD:$PATH[ ! -f...

2017-09-06 15:46:00 399

转载一个新型的混音算法

针对传统经典的线性混音，路数多时音量变小的缺点；自创了一个新的混音算法，解决该问题，声音不会忽大忽小，而且该方法还能一定程度抑制噪声，突出人声，能实时计算量小，专利已经受理。对于混音方法，网上和文献上流传许多方法。1.平均权重2.随幅值变化的权重3.利用衰减因子缓慢规整4.绝对值处理5.A+B-A*B(书写不是很精确)经过实验，方法做了比较了：方法1.唯一的缺陷就是正反时...

2017-08-08 16:00:00 96

转载 How do I convert an IIR filter into a FIR filter in digital signal processing?

Maybe you were asking if there is some kind of design tool allowing to convert an IIR filter into an FIR filter automatically. There is no such a program. IIRs and FIRs have fundamentally differe...

2017-07-03 10:40:00 115

空空如也

空空如也