人工智能 自然语言处理 信息检索
文章平均质量分 76
leeshuheng
UNIX, GNU/Linux C/Cplusplus R programmer 数据挖掘 机器学习
展开
-
机器生成中文句子
<br />自然语言处理有两种基本的方法:基于规则和基于统计。<br />马尔可夫统计模型在自然语言处理中被广泛的应用。马尔可夫链<br />由俄国数学家马尔可夫提出,利用条件概率对语言建立数学模型,<br />最初马尔可夫用它分析普希金的诗。<br /><br />我写了个玩具程序,它将一阶马尔可夫链和基于规则的一些方法<br />结合来实现机器生成中文句子。我把写的13篇博客修改了一下,<br />主要是删掉博文中包含的代码部分,并进行了手工分词。将这13<br />篇修改后原创 2010-11-23 09:28:00 · 3492 阅读 · 1 评论 -
k-means聚类算法
k-means作为一种聚类算法,是2006年评出的10大数据挖掘算法之一,应用广泛。k-means这个名字恰到好处的说明了算法的工作原理。该算法的目的就是要在n个对象中归纳出k种分类,而这是通过这样一种聚类迭代过程实现的。 (1)输入n个对象,并指定其中的k个为初始聚类中心; (2)分别计算n个对象和k个中心的相似度; (3)任意对象都有一个和其相似度最大原创 2012-06-11 09:03:09 · 3338 阅读 · 0 评论 -
数据挖掘:id3 算法
1 简述1.1 id3是一种基于决策树的分类算法,由J.Ross Quinlan在1986年开发。id3根据信息增益,运用自顶向下的贪心策略建立决策树。信息增益用于度量某个属性对样本集合分类的好坏程度。由于采用了信息增益,id3算法建立的决策树规模比较小,查询速度快。id3算法的改进是C4.5算法,C4.5算法可以处理连续数据,采用信息增益率,而不是信息增益。原创 2012-07-24 08:54:48 · 24658 阅读 · 3 评论 -
数据挖掘: Apriori算法
数据挖掘: Apriori算法1 概述1.1 Apriori算法是由Rakesh Agrawal和Ramakrishnan Srikan发明的一种数据挖掘算法。最初是解决找到transaction数据库中不同item关联规则的问题。2 算法2.1 基本概念I = {i1, i2, ..., im} 是由m个item组成的集合;D是多个transact原创 2012-08-16 08:59:45 · 2808 阅读 · 0 评论