nlpgeek-CSDN博客

原创 EM算法的原理

在基于HMM-GMM的声学模型训练中，我们经常要使用EM算法进行参数估计；下面我们就介绍下EM算法的原理：

2019-02-24 19:03:46 45670

语音识别中有一项任务就是训练语言模型，而对于中文的语言模型，需要事先进行分词。而语音识别中的语言模型还有个特殊的要求，就是语言模型中的所有词都必须在发音词典中(也就是说每个词都要有对应的发音)。因此这就限制了我们不能使用Stanford分词，哈工大分词等工具，因为这些分词工具分出来的词有可能不在发音词典中。现在在语音识别任务中最常使用的是scws机械分词，和jieba分词。经过实际比对，发现使用jieba分词后训练的语言模型会比scws好些。

2019-02-24 18:55:10 48034

原创图解Tensorflow中的crf(条件随机场)源码

2019-02-24 17:51:47 48189 9

原创图解N-gram语言模型的原理--以kenlm为例

详细介绍基于N-gram语言模型的原理–从kenlm的源码说起常用的N-gram训练工具有SRILM、IRSTLM、BerkeleyLM和KenLM等。这几种工具所用的算法思想基本一致，只是在实现细节上有所不同，所以我们只需理解其中一个训练工具即可。本文以KenLM(号称速度最快，占用内存最少)作为训练工具，对基于N-gram的过程进行详细介绍，所用的平滑技术是Modified Knese...

2018-08-29 14:34:24 63842 14

原创基于对比学习的NN语言模型训练方法

语言模型、对比学习

2022-08-03 16:58:48 912 1

原创 LC-BLSTM(latency-controlled)详解

@[TOC](论文解读:IMPROVING LATENCY-CONTROLLED BLSTM ACOUSTIC MODELS FOR ONLINE SPEECH RECOGNITION(LC声学模型))LSTM和BLSTM在声学建模中的应用因为LSTM能对序列性问题进行较好的建模，而语音信号正是序列；所以语音识别的声学建模越来越多采用LSTM结构；其中比较有名的是谷歌提出的CLDNN模型了；...

2020-07-14 10:41:01 2044

原创语音识别CTC模型的output delay问题及其解决办法

本篇博客主要是参考谷歌2015年的一篇文章《ACOUSTIC MODELLING WITH CD-CTC-SMBR LSTM RNNS》。什么叫output delay(输出延迟)为什么会产生输出延迟呢？论文原话是：With CTC, there is no time alignment supervision since the network is constantly integr...

2020-07-14 10:40:53 1541

原创 kaldi中的chain model(LFMMI)详解

chain model的结构chain model实际上是借鉴了CTC的思想，引入了blank用来吸收不确定的边界。但CTC只有一个blank，而chain model中每一个建模单元都有自己的blank。如下图所示：对应kaldi中的结构定义为：&amp;amp;amp;amp;lt;Topology&amp;amp;amp;amp;gt;&amp;amp;amp;amp;lt;TopologyEntry&amp;amp;amp;

2020-07-14 10:40:38 27707 12

原创语音识别中的HMM-GMM模型：从一段语音说起(通俗易懂版)

虽然现在端到端语音识别模型可以直接对后验概率建模，已经不需要HMM结构了。但实际上目前很多公司还是以HMM结构为主，包括现在效果比较好的chain model。而且掌握HMM-GMM结构，对于深入理解语音识别过程是由有一定好处的。但对于外行(比如像我这种从机械行业转行到语音识别领域的人)或者刚接触语音识别的人来说，要弄懂HMM-GMM结构还是要花不少时间的，因为语音识别任务的特殊性。比如语音识别...

2020-07-14 10:39:33 23972 19

原创 kaldi中基于决策树的状态绑定

为什么要做状态绑定假如我们有218monophone，然后现在要考虑上下文音素对发音的影响，这时候我们通常使用triphone。那么会有几个triphone呢？答案是218的3次方。如果不进行聚类，我们需要建立(218的3次方)*3个混合gmm模型(假设每个triphone有3个状态)，计算量巨大,另一方面会引起数据稀疏。所以通常我们会根据数据特征对triphone的状态进行绑定。常见的状态绑...

2020-07-14 10:32:52 112806 7

nlpgeek