
数据挖掘
文章平均质量分 93
音程
这个作者很懒,什么都没留下…
展开
-
数据挖掘关联规则挖掘FPtree的思想
FPtree是针对Apriori关联规则挖掘算法的改进,他的优点在于只需要扫描一遍数据库,建好了FPtree之后,基于树做关联规则挖掘就可以了,显然大大减少了数据库的扫描次数。建FPtree前的工作 在扫描左边一条一条数据的时候,我们完成项头表,即记录了频繁1项集,不但如此,还记录这些频繁1项集谁最频繁,也就是次数,比如A出现了8次。接下来我们将左边每一条数据进行一定的处理,这个处理包括两部分:把非频繁1项集删去,因为频繁K项集中一定不会出现这...转载 2020-11-04 12:17:07 · 1309 阅读 · 0 评论 -
ID3、C4.5、C5.0、CART决策树区别
ID3决策树 ID3选用使得信息增益最大的那个属性来划分样本ID3算法缺点: 倾向于使用属性值多的属性来划分样本不能处理具有连续值的属性。不能处理属性具有缺失值的样本。由于按照上面的算法会生成很深的树,所有容易产生过拟合现象。 ...转载 2020-10-30 12:36:35 · 2189 阅读 · 0 评论 -
数据挖掘关联规则挖掘改进算法DHP
前言:Apriori算法是关联规则挖掘经典算法,但不适合在大型数据库中挖掘关联规则,时间太慢,许多学者提出了改进的算法。比如DHP算法。DHP1. 减少候选集数量背景:这个操作是基于Ck来做的,我们知道原来的话,Ck的得到是通过L(k-1)*L(1)笛卡尔积连接,去掉k-1项集得到。同时,我们也知道其实Ck还是有很多都不是频繁项集。现在的目标就是:扫描一遍数据库,将Ck候选集的数量留下1/2(当然这只是为了形象化,不一定是1/2)。要知道,原来的化,假设Ck中有10个候选集,原来是要对每一个原创 2020-10-28 14:09:12 · 2457 阅读 · 0 评论