文本分析算法
蓝天上的一朵云
这个作者很懒,什么都没留下…
展开
-
数据挖掘领域的十大经典算法
原文参照:http://blog.csdn.net/v_july_v/article/details/6142146 一、C4.5 C4.5,是机器学习算法中的一个分类决策树算法, 它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法 ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。 决策树构造方法其实就是每次选择一个好的特征以及分裂点作转载 2014-08-11 15:49:23 · 387 阅读 · 0 评论 -
基于KNN算法的文本分类研究
KNN文本算法分类可参考的文章:http://wenku.baidu.com/link?url=wZcB1WL033wflK1SzAohKwBRYzh8w-InZJSSrpBXZI4a4BZouKfo0K8y17Ehiv9g4M6s2AfBuwQiDOG1z9MDEf72jNS1koKHlTYFIb6aYDq(百度文库:基于KNN算法的文本分类研究) 利于KNN算进行文本分类的基本步骤: 1、原创 2014-08-18 11:30:53 · 1702 阅读 · 0 评论 -
关于ID3 C4.5 以及贝叶斯算法的详细介绍
原文参考:http://blog.csdn.net/v_july_v/article/details/7577684转载 2014-08-12 10:15:11 · 665 阅读 · 0 评论 -
C4.5算法详解(至今见过写的最好的算法详解)
C4.5是机器学习算法中的另一个分类决策树算法,它是基于ID3算法进行改进后的一种重要算法,相比于ID3算法,改进有如下几个要点: 用信息增益率来选择属性。ID3选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3使用的是熵(entropy, 熵是一种不纯度度量准则),也就是熵的变化值,而C4.5用的是信息增益率。 在决策树构造过程中进行剪枝,因为某些具有很少元素的结点可转载 2014-08-11 17:12:26 · 3416 阅读 · 0 评论 -
基于optics算法的文本分类程序
optics算法给定E值(中心偏移距离),原创 2014-09-11 16:48:32 · 881 阅读 · 0 评论