数据挖掘
Chook_lxk
你前程有在,但须澄心猛省,不可自甘堕落。
展开
-
数据挖掘 -- Apriori关联规则算法
1. 算法原理Apriori关联规则算法的目的就是找出所有的频繁项集,所以需要定义一个评估标准找出频繁项集,即最小支持度。 首先从原始数据集中找出出现的所有项,对应数据集确定候选1项集,根据候选一项集每项在原始项集中的出现次数计算每一项的sup值。比较sup值 / 原始数据集数 的值与最小支持度,小于则舍去,计算出频繁一项集,然后对频繁一项集两项之间求补集,并按照一项集中求sup的方法求取候选二...原创 2019-04-15 16:21:32 · 766 阅读 · 1 评论 -
数据挖掘 -- FP-Tree关联规则算法
1. 算法原理FP-Tree相对于Apriori算法,减少了I/O的次数,原理是先找到原数据的频繁1项集,即项头表。得到后按照项头表的sup值给初始表排序。并且创建树形结构,每个节点存节点名称和出现次数。将初始表迭代放入树中,建树过程完成。挖掘过程是倒序遍历项头表,对于每个s,寻找s在树中到根的路径,组合其余分支的s, 父节点的sup值为所有s节点的sup值之和。得到频繁项集。最终求出最大频繁项...原创 2019-04-18 09:45:46 · 1163 阅读 · 0 评论 -
数据挖掘 -- C4.5决策树算法
1. 算法原理C4.5算法: 首先根据训练集求出各属性的信息熵info, 然后求出类别信息商infod, infod - info[i]得到每个属性的信息增益gain, 然后计算每个属性的信息分裂度h, gain[i] / h[i]得到属性信息增益率。递归选择信息增益率最高的属性,按照该属性对数据集进行分裂,判断分裂之后的数据集类别是否为’纯’的,如果是则将当前分裂属性作为叶节点,如果不是继续递...原创 2019-04-23 11:29:41 · 1051 阅读 · 0 评论 -
数据挖掘 -- CART决策树算法
1. 算法原理CART算法: 为二叉决策树, 能够同时处理离散属性和连续属性,计算所有属性的Gini值,根据最大Gini值进行分裂生成决策树。(离散属性可以用二进制枚举分成两部分, 连续值根据值进行排序后遍历的时候同时更新类别判断值的状态,复杂度降到o(n))2. 代码实现Node.javapackage com.clxk1997.model;/** * @Description 决...原创 2019-05-08 17:27:28 · 713 阅读 · 1 评论