数据挖掘_频繁项集/关联规则

【1】数据挖掘和机器学习的区别:

         数据挖掘应该数据量很大,需要考虑内存方面内存速度快,但是容量小。而如果内存放不下,只能放到硬盘里,那样处理会很慢。所以数据挖掘的目的是让算法动起来。

         机器学习则忽略内存,单纯的从公式和模型出发。

【2】频繁项集和关联规则:理解:无论频繁项集还是关联规则其实都是为了探索项与项之间的共振关系。(项与项之间有关联,会同时出现)(啤酒/尿布)

【2.1】数据的购物篮模型,就像你所理解的那样。一类对象是项(对象购物篮的物品),另一类对象是购物篮探究物品的共振关系

【2.2】频繁项集:一个在购物篮多次出现的项集(项的集合)

【2.3】关联规则其实是频繁项集的一种 if-then 的表达.。I-j,如果项集I出现在购物篮,那么项j可能出现在购物篮的概率。

【3】普通数组和三元组(行,列,数)的对比。P165

【4】A-priori算法。思想:如果一个集合的子集不是频繁项集那么该集合也不是频繁项集这样就删掉了不可能是频繁项集的项。详情见课本/ppt。

【4.1】A-priori算是广度优先优先搜索,google创始然对其进行了改进:深度优先搜索

【5】FP-growth算法。其基本思想是建立一颗树,哈夫曼树。频率较高的节点离根节点更近。这样从叶子节点出发,如果叶子节点的频率值少于阀值将不予考虑。(也是如果一个集合的子集不是频繁项集那么该集合也不是频繁项集的应用)可见ppt

【6】关联规则的其他工作也有待探索,什么时间序列数据,什么有限制的关联规则。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值