统计语言学
文章平均质量分 81
dzhjsofo
低调是最牛叉的炫耀
展开
-
一种没有语料字典的分词方法
http://blog.csdn.net/ygrx/article/details/8926274前几天在网上闲逛,看到一篇美文,说的是怎么在没有语料库的情况下从文本中提取中文词汇,理论部分讲得比较多,但都还是很浅显易懂的,其中涉及一部分信息论的理论,其实只要大学开过信息论这门课的话,看起来还是挺简单的。信息论我忘得差不多了,但是其中主要的内容还记得,信息论最主要的就是信息其实转载 2014-08-29 18:07:05 · 1258 阅读 · 0 评论 -
隐马尔可夫模型(五)——隐马尔可夫模型的解码问题(维特比算法)
HMM解码问题 给定一个观察序列O=O1O2...OT,和模型μ=(A,B,π),如何快速有效地选择在一定意义下“最优”的状态序列Q=q1q2...qT,使该状态最好地解释观察序列。 一种想法是求出每个状态的概率rt(i)最大(rt(i)=P(qt=si,O|μ)),记q't(i)=argQmax(rt(i)),但是这样做,忽略了转载 2014-09-14 11:13:03 · 865 阅读 · 0 评论 -
序列比对那点事儿
序列比对那点事儿 717 四 2012 | 程序员 Tags: 教程 · 生物信息学 · 编程本来这应该是一本书,那样的话的确需要花一点心思,就写成一篇短文吧。从字符比对开始说起吧。第一个问题最简单,如何判断两个字符串是相等的。int strcmp(const char *s1, const char *s2){ int ret =转载 2015-04-27 18:38:33 · 1449 阅读 · 0 评论