从零开始的ASR毕设
文章平均质量分 87
喜欢什么的只是说说而已
python
展开
-
【Kaldi例子】构图与解码
构图和解码基于HMM的语音识别模型实际上是在解码图中寻找最优路径。因此,要进行解码,需要先构建解码图:# Graph compilationutils/mkgraph.sh data/lang_test_tg exp/mono0a exp/mono0a/graph_tgpr# Decodingsteps/decode.sh --nj 1 --cmd "$decode_cmd" \ exp/mono0a/graph_tgpr data/test_yesno exp/mono0a/decod原创 2022-01-15 15:27:08 · 2342 阅读 · 0 评论 -
【Kaldi例子】Kaldi经典声学建模
基本概念在经典语音识别框架中,一个声学模型就是一组HMM。对于语音识别框架中的声学模型中的每个HMM,都定义该HMM中有多少个状态,以及以各个状态起始的马尔可夫链的初始概率、个状态间的转移概率和每个状态的概率分布函数。在语音识别实践中,一般令初始概率恒为1,把状态间的转移概率预设为固定值,不在训练过程中更新状态转移概率。声学模型包含的信息主要是状态定义和各状态的观察概率分布。如果使用高斯混合模型对观察概率分布建模,那就是GMM-HMM模型,如果用神经网络模型对观察概率分布建模,那就是NN-HMM。HM原创 2022-01-12 15:31:09 · 3508 阅读 · 0 评论 -
【Kaldi例子】Kaldi特征提取
声学特征提取因为从语音时域信号中很难找到发音规律,即使是类似的发音,也可能看起来非常不同,因此一般不同直接用于识别。 事实上,我们的耳朵是通过频域而不是波形来辨认声音的,吧时域信号做短时傅里叶变换(Short-time Fourier Transform,STFT),就得到了声音的频谱。我们以帧为单位,根据听觉感知原理,按需调整声音片段频谱中各个片段的赋值,将其参数化,得到适合表示语音信号特性的向量,这就是声学特征(Acoustic Feature)。虽然在端到端语音识别研究中,也出现了一些直接输入语音波原创 2022-01-12 15:30:33 · 1987 阅读 · 0 评论 -
【Kaldi例子】Librispeech数据整理
数据分集数据采集自有声书网站,首先对每个句子做一遍语音识别,识别模型使用WSJ示例中的声学模型,语言模型使用二元文法,语言模型数据为语音数据对应的电子书文本。根据识别结果,统计每个说话人的WER,从低到高排序,前一半标记为clean,表示这些说话人语音比较清晰,其余标记为other。从clean数据中,随机抽取20名男性和20名女性作为开发集(dev-clean),剩余说话人抽取相同规模的测试集(test-clean),其余作为训练集。训练集随机分为100小时和360小时的子集(train-clean-原创 2022-01-12 15:29:55 · 8618 阅读 · 2 评论 -
【Kaldi例子】YesNo:Hello Kaldi
本文是对Kaldi中最简单例子egs/yesno/s5的实验记录。数据集使用数据集waves_yesno,该数据集只有yes和no两种发音。数据集没有文本文件,因为音频对应的文本都由wav文件的文件名所表示。例如1_0_1_0_1_0_0_1.wav中,1表示yes,0表示no。数据准备划分训练集和测试集把数据规范成Kaldi规定的数据文件夹格式# 运行local/prepare_data.sh waves_yesno后生成的结果# 其中local文件夹里的脚本是特别为该数据集编写的,原创 2021-12-11 16:39:58 · 3555 阅读 · 0 评论 -
【ASR-Tutorial】混合高斯模型
混合高斯模型1. 高斯分布如果连续标量随机变量xxx概率密度函数为:p(x)=1(2π)1/2σexp[−12(x−μσ)2],(−inf<x<inf;σ>0)p(x)=\frac{1}{(2\pi)^{1/2}\sigma}\exp[-\frac{1}{2}(\frac{x-\mu}{\sigma})^2],\\(-\inf<x<\inf;\sigma>0)p(x)=(2π)1/2σ1exp[−21(σx−μ)2],(−inf<x<i原创 2021-11-28 10:26:39 · 1456 阅读 · 0 评论