- 博客(10)
- 收藏
- 关注
原创 jieba分词详解
语音识别中有一项任务就是训练语言模型,而对于中文的语言模型,需要事先进行分词。而语音识别中的语言模型还有个特殊的要求,就是语言模型中的所有词都必须在发音词典中(也就是说每个词都要有对应的发音)。因此这就限制了我们不能使用Stanford分词,哈工大分词等工具,因为这些分词工具分出来的词有可能不在发音词典中。现在在语音识别任务中最常使用的是scws机械分词,和jieba分词。经过实际比对,发现使用jieba分词后训练的语言模型会比scws好些。
2019-02-24 18:55:10 48034
原创 图解N-gram语言模型的原理--以kenlm为例
详细介绍基于N-gram语言模型的原理–从kenlm的源码说起常用的N-gram训练工具有SRILM、IRSTLM、BerkeleyLM和KenLM等。这几种工具所 用的算法思想基本一致,只是在实现细节上有所不同,所以我们只需理解其中一个训 练工具即可。本文以KenLM(号称速度最快,占用内存最少)作为训练工具,对基于N-gram的过程进行详细介绍,所用的平滑技术是Modified Knese...
2018-08-29 14:34:24 63842 14
原创 LC-BLSTM(latency-controlled)详解
@[TOC](论文解读:IMPROVING LATENCY-CONTROLLED BLSTM ACOUSTIC MODELS FOR ONLINE SPEECH RECOGNITION(LC声学模型))LSTM和BLSTM在声学建模中的应用因为LSTM能对序列性问题进行较好的建模,而语音信号正是序列;所以语音识别的声学建模越来越多采用LSTM结构;其中比较有名的是谷歌提出的CLDNN模型了;...
2020-07-14 10:41:01 2044
原创 语音识别CTC模型的output delay问题及其解决办法
本篇博客主要是参考谷歌2015年的一篇文章《ACOUSTIC MODELLING WITH CD-CTC-SMBR LSTM RNNS》。什么叫output delay(输出延迟)为什么会产生输出延迟呢?论文原话是:With CTC, there is no time alignment supervision since the network is constantly integr...
2020-07-14 10:40:53 1541
原创 kaldi中的chain model(LFMMI)详解
chain model的结构chain model实际上是借鉴了CTC的思想,引入了blank用来吸收不确定的边界。但CTC只有一个blank,而chain model中每一个建模单元都有自己的blank。如下图所示:对应kaldi中的结构定义为:<Topology><TopologyEntry&
2020-07-14 10:40:38 27707 12
原创 语音识别中的HMM-GMM模型:从一段语音说起(通俗易懂版)
虽然现在端到端语音识别模型可以直接对后验概率建模,已经不需要HMM结构了。但实际上目前很多公司还是以HMM结构为主,包括现在效果比较好的chain model。而且掌握HMM-GMM结构,对于深入理解语音识别过程是由有一定好处的。但对于外行(比如像我这种从机械行业转行到语音识别领域的人)或者刚接触语音识别的人来说,要弄懂HMM-GMM结构还是要花不少时间的,因为语音识别任务的特殊性。比如语音识别...
2020-07-14 10:39:33 23972 19
原创 kaldi中基于决策树的状态绑定
为什么要做状态绑定假如我们有218monophone,然后现在要考虑上下文音素对发音的影响,这时候我们通常使用triphone。那么会有几个triphone呢?答案是218的3次方。如果不进行聚类,我们需要建立(218的3次方)*3个混合gmm模型(假设每个triphone有3个状态),计算量巨大,另一方面会引起数据稀疏。所以通常我们会根据数据特征对triphone的状态进行绑定。常见的状态绑...
2020-07-14 10:32:52 112806 7
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人