数据挖掘
文章平均质量分 81
不仅仅是寻找
寻找机会
展开
-
决策树ID3算法
基本思想1.选择一个属性放置在根节点,为每个可能的属性值产生一个分支 2.将样本划分成多个子集,一个子集对应于一个分支3.在每个分支上递归地重复这个过程,仅使用真正到达这个分支的样本4.如果在一个节点上的所有样本拥有相同的类别,即停止该部分树的扩展ID3算法思想:(1) 初始化决策树T为只含一个树根(X,Q),其中X是全体样本集,Q为全体属性集。(2) if原创 2013-06-07 13:46:24 · 829 阅读 · 0 评论 -
决策树C4.5
C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2) 在树构造过程中进行剪枝; 3) 能够完成对连续属性的离散化处理; 4) 能够对不完整数据进行处理。C4.5算法优点:产生的分类规则易于理解,准确率较高。缺点:在构造树的过程中,需要对数原创 2013-06-07 06:28:14 · 906 阅读 · 0 评论 -
决策树
飞原创 2013-07-31 18:03:19 · 152 阅读 · 1 评论 -
聚类
聚类分析算法原创 2013-07-31 22:39:42 · 411 阅读 · 0 评论 -
关联
Apriori算法是R.Agrawal和R.Srikant于1994年提出的为布尔关联规则挖掘频繁项集的原创性质算法。正如我们将看到的,算法的名字基于这样的事实:算法使用频繁项集性质的先验性质。Apriori使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描数据库,累积每个项的计数,并收集满足最小支持度的项,找出频繁1项集的集合。该集合记作L1。然后L1用于找频繁2项集的原创 2013-07-31 22:57:43 · 425 阅读 · 0 评论