aprioir算法_关联挖掘和Aprioir算法

Apriori算法

优点:易编码实现

缺点:在大数据集上可能较慢

适用数据类型:数值型或者标称型

算法过程:

关联分析是一种在大规模数据集中寻找有意思的关系的任务,这里的有意思的关系有两种:频繁项集(frequent item sets)或关联规则(association rules)。

支持度(support):一个项集的支持度被定义为数据集中该项集的记录所占的比例。

置信度(confidence):关联规则A->B的置信度表示为support(A,B)/support(A)

单纯暴力做的话有2^n-1个组合

Apriori原理:如果某个项集是频繁的那么它的子项集也是频繁的。

反过来看就是说一个项如果不是频繁项的话,那么包含他的项也不是频繁项

这里主要是两个过程:

1.生成频繁项集:

这是一个挺简单的过程就是两个集合C、L来回倒,C就是通过初选的集合(像是最原始的啊,组合出来的啊);L是通过支持度筛选的集合。过程大体如下:

1.根据原始数据集构建单个项组成的集合C1

2.根据C1计算L1

3.找出L1中可以的合并的得到C2

4.重复上述C2 -> L2 -> C3 ->.....->Ck -> Lk

2.推导出关联规则:

通过上一步得到的频繁项集,我们就只需要吧每个频繁项集里能够列出的规则都列出来,然后计算置信度,选出置信度符合要求的就可以了。

函数:

loadDataSet()

导入数据集&#x

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值