自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 EM算法的原理

在基于HMM-GMM的声学模型训练中,我们经常要使用EM算法进行参数估计;下面我们就介绍下EM算法的原理:

2019-02-24 19:03:46 45670

原创 jieba分词详解

语音识别中有一项任务就是训练语言模型,而对于中文的语言模型,需要事先进行分词。而语音识别中的语言模型还有个特殊的要求,就是语言模型中的所有词都必须在发音词典中(也就是说每个词都要有对应的发音)。因此这就限制了我们不能使用Stanford分词,哈工大分词等工具,因为这些分词工具分出来的词有可能不在发音词典中。现在在语音识别任务中最常使用的是scws机械分词,和jieba分词。经过实际比对,发现使用jieba分词后训练的语言模型会比scws好些。

2019-02-24 18:55:10 48034

原创 图解Tensorflow中的crf(条件随机场)源码

2019-02-24 17:51:47 48189 9

原创 图解N-gram语言模型的原理--以kenlm为例

详细介绍基于N-gram语言模型的原理–从kenlm的源码说起常用的N-gram训练工具有SRILM、IRSTLM、BerkeleyLM和KenLM等。这几种工具所 用的算法思想基本一致,只是在实现细节上有所不同,所以我们只需理解其中一个训 练工具即可。本文以KenLM(号称速度最快,占用内存最少)作为训练工具,对基于N-gram的过程进行详细介绍,所用的平滑技术是Modified Knese...

2018-08-29 14:34:24 63842 14

原创 基于对比学习的NN语言模型训练方法

语言模型、对比学习

2022-08-03 16:58:48 912 1

原创 LC-BLSTM(latency-controlled)详解

@[TOC](论文解读:IMPROVING LATENCY-CONTROLLED BLSTM ACOUSTIC MODELS FOR ONLINE SPEECH RECOGNITION(LC声学模型))LSTM和BLSTM在声学建模中的应用因为LSTM能对序列性问题进行较好的建模,而语音信号正是序列;所以语音识别的声学建模越来越多采用LSTM结构;其中比较有名的是谷歌提出的CLDNN模型了;...

2020-07-14 10:41:01 2044

原创 语音识别CTC模型的output delay问题及其解决办法

本篇博客主要是参考谷歌2015年的一篇文章《ACOUSTIC MODELLING WITH CD-CTC-SMBR LSTM RNNS》。什么叫output delay(输出延迟)为什么会产生输出延迟呢?论文原话是:With CTC, there is no time alignment supervision since the network is constantly integr...

2020-07-14 10:40:53 1541

原创 kaldi中的chain model(LFMMI)详解

chain model的结构chain model实际上是借鉴了CTC的思想,引入了blank用来吸收不确定的边界。但CTC只有一个blank,而chain model中每一个建模单元都有自己的blank。如下图所示:对应kaldi中的结构定义为:<Topology><TopologyEntry&

2020-07-14 10:40:38 27707 12

原创 语音识别中的HMM-GMM模型:从一段语音说起(通俗易懂版)

虽然现在端到端语音识别模型可以直接对后验概率建模,已经不需要HMM结构了。但实际上目前很多公司还是以HMM结构为主,包括现在效果比较好的chain model。而且掌握HMM-GMM结构,对于深入理解语音识别过程是由有一定好处的。但对于外行(比如像我这种从机械行业转行到语音识别领域的人)或者刚接触语音识别的人来说,要弄懂HMM-GMM结构还是要花不少时间的,因为语音识别任务的特殊性。比如语音识别...

2020-07-14 10:39:33 23972 19

原创 kaldi中基于决策树的状态绑定

为什么要做状态绑定假如我们有218monophone,然后现在要考虑上下文音素对发音的影响,这时候我们通常使用triphone。那么会有几个triphone呢?答案是218的3次方。如果不进行聚类,我们需要建立(218的3次方)*3个混合gmm模型(假设每个triphone有3个状态),计算量巨大,另一方面会引起数据稀疏。所以通常我们会根据数据特征对triphone的状态进行绑定。常见的状态绑...

2020-07-14 10:32:52 112806 7

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除