语音识别
文章平均质量分 81
Bean冷的心
不要害怕被利用,利用你,证明你有利用价值。
展开
-
(二)《The Application of Hidden Markov Models in Speech Recognition》论文学习
HMM结构改进在前一节中,基本的声学HMMHMMHMM及其在ASRASRASR系统中的使用已经被解释。虽然这些简单的HMMHMMHMM可以满足小词汇量和类似的有限复杂性任务,但当用于更复杂和更大的词汇量任务时,如广播新闻转录和听写,它们的表现就不太好。本节描述一些用于提高ASRASRASR系统性能的扩展,并允许将它们应用到这些更有趣和更具挑战性的领域。首先介绍了使用动态贝叶斯网络来描述可能的扩展。然后详细讨论其中的一些扩展。特别地,提出了高斯混合模型、有效协方差模型和特征投影方案的使用。最后,简要讨论了使原创 2021-11-21 16:35:04 · 2654 阅读 · 0 评论 -
(一)《The Application of Hidden Markov Models in Speech Recognition》论文学习
ABSTRACT:隐马尔可夫模型(HMMs)为时变谱向量序列建模提供了一个简单有效的框架。因此,目前几乎所有的大词汇量连续语音识别(LVCSR)系统都是基于HMM的。虽然基于HMM的大词汇量连续语音识别的原理很简单,但是直接应用的话,会造成非常低的准确率并且对于改变操作环境的敏感度特别差。这篇综述的目的是首先提出基于HMM的LVCSR系统的核心架构,然后描述实现最先进性能所需的各种改进。这些改进包括特征投影、改进的协方差建模、鉴别参数估计、自适应和归一化、噪声补偿和多通道系统组合。文章最后以广播新闻与新闻原创 2021-11-16 22:19:02 · 3237 阅读 · 0 评论 -
怎么把Aishell内的transcipt切割成多个.txt文件
众所周知,Aishell的transcipt并没有给你切割好,只有一个将所有lable整合在一个txt的文件,如图所示:似乎kaldi有自带的脚本,但是我还没搞懂,所以自己写了一个python脚本来实现,比较难搞的是编码问题,由于windows系统是“GBK”编码,而Linux系统是“UTF-8”编码,所以需要进行一步转码格式,具体代码如下:f = open('/你的目录/data_aishell/transcript/aishell_transcript_v0.8.txt', 'r', encodi原创 2021-10-26 21:20:10 · 1150 阅读 · 0 评论 -
服务器和虚拟机怎么安装Kaldi?
这里写自定义目录标题前言克隆kaldi到本地tools/INSTALL安装检查依赖extras/check_dependencies.sh把四个依赖包放在tools/目录下修改Makefile文件检查g++是否安装安装irstlm(非必须)Src/INSTALL安装./configure --sharedmake depend和make测试egs/yesno/s5/的案例前言安装kaldi折腾十个小时,终于安装完成,踩了各种坑,好多问题网上查不到,我都怀疑实验室的服务器有问题了,最后还是在宏林师兄的帮忙原创 2021-10-04 15:23:15 · 976 阅读 · 1 评论