- 博客(8)
- 资源 (2)
- 收藏
- 关注
转载 期望最大化(EM)算法(讲的很好)
EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式 回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有的实数x,,那么f是凸函数。当x是向量时,如果
2013-12-06 15:10:16 2596
转载 最大似然估计算法(简单,通俗易懂)
最大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。简单而言,假设我们要统计全国人口的身高,首先假设这个身高服从服从正态分布,但是该分布的均值与方差未知。我们没有人力与物力去统计全国每个人的身高,但是可以通过采样,获取部分人的身高,然后通过最大似然估计来获取上述假设中的正态分布的均值与方差。 最大似然估计中采样需满足一个很重要的假设,就是所有的采样都是独立
2013-12-06 15:08:36 71087 1
转载 最大后验概率估计算法(简单,通俗易懂)
最大后验估计是根据经验数据获得对难以观察的量的点估计。与最大似然估计类似,但是最大的不同时,最大后验估计的融入了要估计量的先验分布在其中。故最大后验估计可以看做规则化的最大似然估计。 首先,假设x为独立同分布的采样,θ为模型参数,f为我们所使用的模型。那么最大似然估计可以表示为: 现在,假设θ的先验分布为g。通过贝叶斯理论,对于θ的后验分布如下式所示: 最
2013-12-06 15:07:12 7823
翻译 sphinx中用的束搜索(Beam Search Algorithm)算法2
接着上次继续说明束搜索算法,下面是算法示例和算法效率分析1 算法示例例1 B=1 (B为束宽度)下面用表格表示算法流程,用两列表示每一个主循环,第一列每一个加编号的循环显示加入到set的节点,它们按启发权值排序,权值相同的按字母排序,一个节点只被加入到SET一次。第二列每一个编号的循环列出了在第二部分的主循环中SET中的节点,它们将被加入到BEAM中。两列都显示了hash tab
2013-11-11 16:59:27 1419
翻译 sphinx中用的束搜索(Beam Search Algorithm)算法
最近一直在看spinx中的连续语音识别算法,即束搜索算法 束搜索算法是广度优先搜索算法(Breadth-First Search)的一种改进,它是一种节省内存的广度优先搜索算法,此算法包含一个启发函数h和一个给定的束宽度B。用启发函数h估计从给定节点到达目标节点的消费,用束宽度B,指定在每一级的Breadth-First Search中存储的节点数。 Brea
2013-11-08 17:00:13 1122
原创 sphinx4 声学模型自适应
如果你没有足够的数据去训练自己的声学模型,那么做自适应训练会比自己直接训练新的声学模型更好,5分钟的自适应语音就可以达到很好的效果,这是官方维基教程指出的,在谷歌上搜 spinx4 adapt 就可以找到wiki教程,如果你打不开这个网页,那就用代理翻墙,我就是这么干的。 sphinx4和pocketsphinx的自适应训练有一些地方会有所不同,这是因为pocektsphinx的
2013-06-08 23:54:16 2488 2
原创 在DOS环境下运行sphinx4当中的回归测试失败的原因
在运行回归测试之前,要先检查所需要的数据、文件是否齐全,一般会缺少测试数据,需要到相关网站去下载测试用数据,第二步,DOS环境下切换到安装spinx4的根目录下执行 ant 命令(这一步很重要,如果不执行后面的会出错),然后切换到相应的测试目录下 ant相应的程序,就会成功执行了
2013-06-04 21:32:11 652
原创 sphinx4当中的语言模型工具和声学模型工具
在此网站可以看到http://www.speech.cs.cmu.edu/#resources 这两个工具的定位是不同的,SLM是用来训练大数据的,正如官方所说的,如果只是训练几百个句子,杀鸡就不用牛刀了,我们可以选择 Sphinx Knowledge Base Tool,这个工具简单,易用,你所要做的只是给他提供语料,剩下的它会帮你在线完成,这个工具同样也有两个版本,一个简易版,就是刚
2013-06-03 19:32:11 2682
搭建HTK语音拨号系统所需要的音频特征文件,各种脚本文件
2013-05-30
HTK_语音拨号中文教程
2013-05-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人