![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
语音识别处理
文章平均质量分 71
包括语音识别,语音信号处理的内容
panxin801
这个作者很懒,什么都没留下…
展开
-
使用Ngram融合多个语言模型
Ngram功能用于多个语言模型之间插值合并,以期望改善模型的效果模型插值参数:-mix-lm 用于插值的第二个ngram模型,-lm是第一个ngram模型-lambda 主模型(-lm对应模型)的插值比例,0~1,默认是0.5-mix-lm2 用于插值的第三个模型-mix-lambda2 用于插值的第二个模型(-mix-lm对应的模型)的比例,那么第二个模型的比例为1-lambda-mix-lambda2-vocab 当两个模型的词典不一样的时候,使用该参数限制词典列表,没有效果-limit原创 2022-05-12 09:28:20 · 660 阅读 · 0 评论 -
【笔记】Small-footprint Keyword Spotting Using Deep Neural Networks
SMALL-FOOTPRINT KEYWORD SPOTTING USING DEEP NEURAL NETWORKSDate: 2021.8.17Author: Xin Pan摘要我们的应用需要一个KWS系统,这个系统需要满足这些条件。内存占用小,计算消耗小,高精度。为了满足这些条件,我们提出了一个基于DNN的方法。训练一个直接预测关键词或者关键词字词单元的DNN,后边接一个后验概率处理方法产生最终的置信度得分。对比传统的HMM系统,该系统达到45%相对的性能提升,同时在babble噪声下达到3原创 2021-08-18 15:11:48 · 852 阅读 · 7 评论 -
[笔记] CTC阅读个人总结
Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural NetworksDate :2021.04.21Author: Xin Pan背景CTC是ICML2016年的论文今天依旧在被使用,而我一致也没有读过使用过,正巧现在想系统阅读下这些论文就记录下自己的收获。讲真的这个论文是够难懂的,很多的内容第一次读完之后真的没有理解。但是之前看过HMM(隐马尔科夫模型)原创 2021-04-29 16:32:51 · 996 阅读 · 0 评论 -
Beam search 以及在语音识别(pure E2E)中的使用
Beam search 以及在语音识别(pure E2E)中的使用Author: Xin PanDate: 2021.2.22语音识别(ASR)中解码时一个很重要的过程。在其中不论是传统语音识别或是E2E的新结构虽然LM也许不存在了,但是解码过程和其中的解码方法是必不可少的。首先简单说下beam search,之后说下ASR E2E+without LM这种方式中beam search如何使用的。Beam SearchBeam search是介于穷举搜索和贪心搜索之间的一种搜索算法。穷举搜索原创 2021-03-03 11:00:32 · 879 阅读 · 0 评论 -
[kaldi]如何freeze 某个Layer并微调其余的网络
[kaldi]如何freeze 某个Layer并微调其余的网络Author: Xin PanDate: 2020.12.21最近因为工作的需要,尝试对网络的一些layer进行freeze 并fine-tune余下的部分网络。需要的文件一个已经训练好的final.mdl文件。这是必须的如何微调使用nnet3-copy --binary=false <input_file> <output_file>将final.mdl文件转换为文本格式;我之前已经有一个fin原创 2020-12-21 11:59:12 · 641 阅读 · 4 评论 -
[kaldi]如何微调模型
kaldi 如何微调模型Author : Xin PanDate: 2020.07.22在已经有了一个模型的基础上如何去微调一个模型?需要的文件基础模型文件夹A(需要包含final.mdl以及tree,除此以外还需要ali.*.gz文件);data文件夹以及保存特征的文件夹;新模型文件夹B(需要包含final.mdl以及tree);exp/tri4_lat那么需要做哪些更改?首先需要下边的额外步骤;local/chain/run_tdnn.sh stage=10;train.原创 2020-07-31 17:32:30 · 1023 阅读 · 4 评论 -
ffmpeg进行多通道语音分离
ffmpeg进行多通道语音分离Author: Xin PanDate: 2020.05.22问题当我们想将一条多通道的语音分离成很多的单通道语音时我们怎么办呢?解决假设我已经有了一个多通道的音频文件DTM1_100.wav和一个手机文件phone_left.wav。使用下边的命令来看看文件信息:ffprobe .\DTM1_100.wav可以看到返回如下结果:ffprobe version N-93397-gf8075b2c91 Copyright (c) 2007-2019 the原创 2020-05-25 10:40:13 · 3638 阅读 · 0 评论 -
批处理文件进行音频格式转换
批处理文件进行音频格式转换Author : Xin PanDate:2020.2.27因为工作需要,将wav文件下的音频文件通过ffmpeg转换到16k 16bit并存储到新的文件夹wav_out中。目录结构如下图:这次的工作是在Windows10 系统上进行的,您需要新建一个文本复制下边的程序进去,之后保存并将文件重命名为run.bat即可。run.bat内容如下:@echo o...原创 2020-02-28 00:52:03 · 930 阅读 · 1 评论 -
[Kaldi]中应用CMVN
Kaldi中应用CMVNAuthor: Xin PanDate: 2020.01.14在上一篇博客中记录了CMVN的统计量是如何被记录下来的之前的博客在这里。现在看CMVN如何应用在自己的feats上。Kaldi中compute-cmvn-stats用于计算CMVN的统计量,但是并不将其应用于feats中,apply-cmvn这个命令会将CMVN应用到feats中。Kaldi官方对于a...原创 2020-01-14 17:54:42 · 2930 阅读 · 0 评论 -
[Kaldi]中CMVN处理过程
Kaldi中CMVN处理过程Author: Xin PanDate: 2020.01.03因为一直好奇CMVN(Cepstral Mean and Variance Normalization,倒谱均值方差归一化)是怎么处理的,正好在服务器安上了gdb就跟着单步调试了一下。结果我发现compute-cmvn-stats这个命令指示统计了feats中的每个cols的统计值(包括均值和方差,...原创 2020-01-08 21:45:50 · 8879 阅读 · 2 评论