数据挖掘
尾随大叔
这个作者很懒,什么都没留下…
展开
-
数据挖掘--Apriori算法(例题)
Apriori算法是关联规则挖掘的代表性算法,十大数据挖掘算法之一,可见其重要性。它的主要作用是发现事物之间的内在联系。Apriori算法的基本思想是通过对数据的多次扫描来计算项集的支持度,发现所有的频繁项集从而生成关联规则。案例:求最小支持度计数为2的候选项集及频繁项集。第一次扫描:第二次扫描:去掉最小支持度小于2的项。L2自身连接:(如果看得出下一步结果,这一步以及剪枝可以...原创 2018-12-01 21:16:03 · 37899 阅读 · 4 评论 -
数据挖掘--决策树ID3算法(例题)
决策树分类算法决策树分类算法通常分为两个步骤:决策树生成和决策树修剪。决策树生成算法的输入参数是一组带有类别标记的样本,输出是构造一颗决策树,该树可以是一棵二叉树或多叉树。二叉树的内部结点(非叶子结点)一般表示为一个逻辑判断,构造决策树的方法是采用自上而下的递归方法。首先要先知道熵和信息增益怎么求。案例:四种不同的影响因素,一个结果(yes/no)下面式子为训练样本集的熵分割线--...原创 2018-12-01 22:46:23 · 74806 阅读 · 17 评论 -
数据挖掘--决策树C4.5算法(例题)
C4.5算法与ID3算法的不同点:(1)分支指标采用增益比例(2)数值属性的处理(3)处理缺少属性值的训练样本(4)使用K次迭代交叉验证,评估模型的优劣程度;(5)根据生成的决策树,可以产生一个if-then规则的集合。计算的步骤:1.对数据源进行预处理2.计算每个属性的信息增益和信息增益率3.根节点属性每一个可能的取值对应一个子集,对样本子集递归地执行以上Step2过 程,直到...原创 2018-12-01 23:42:42 · 28713 阅读 · 2 评论