Machine Learning
heavendai
NULL
展开
-
分词中的HMM
1. 首先来说一下马尔科夫链。 一个事件序列发生的概率可以用下面的概率论里面的乘法公式展开 P(w1,w2,…wn) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1) 乘法公式的证明非常有意思,它本身就是一个递推的过程, 根据条件概率的定义:P(A|B) = P(AB)/ P(B)那么 P(AB) = P(A转载 2011-12-01 11:10:57 · 4664 阅读 · 0 评论 -
KMeans
Clustering 中文翻译作“聚类”,简单地说就是把相似的东西分到一组,同 Classification (分类)不同,对于一个 classifier ,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一个 classifier 会从它得到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,这种提供训练数据的过程通常叫做supervised learning (监督转载 2011-12-01 08:59:24 · 21469 阅读 · 1 评论 -
CRF条件随机场简介
CRF(Conditional Random Field) 条件随机场是近几年自然语言处理领域常用的算法之一,常用于句法分析、命名实体识别、词性标注等。在我看来,CRF就像一个反向的隐马尔可夫模型(HMM),两者都是用了马尔科夫链作为隐含变量的概率转移模型,只不过HMM使用隐含变量生成可观测状态,其生成概率有标注集统计得到,是一个生成模型;而CRF反过来通过可观测状态判别隐含变量,其概率亦通过标...原创 2012-02-02 15:28:04 · 58262 阅读 · 14 评论 -
CRF++使用小结(转)
1. 简述 最近要应用CRF模型,进行序列识别。选用了CRF++工具包,具体来说是在VS2008的C#环境下,使用CRF++的windows版本。本文总结一下了解到的和CRF++工具包相关的信息。 参考资料是CRF++的官方网站:CRF++: Yet Another CRF toolkit,网上的很多关于CRF++的博文就是这篇文章的全部或者部分的翻译,本文也翻译了一些。2转载 2012-02-02 15:09:22 · 35220 阅读 · 6 评论