apriori算法_数据挖掘十大算法—— Apriori

十大算法 —— Apriori

1、基本介绍

(1)概述:Apriori算法是一种通过频繁项集来挖掘关联规则的算法。该算法既可以发现频繁项集,又可以挖掘物品之间关联规则。分别采用支持度和置信度来量化频繁项集和关联规则。其核心思想是通过候选集生成和情节的向下封闭检验检测两个阶段来挖掘频繁项集。

其最常见的改进算法为AprioriTid算法,该改进算法与原算法的主要区别在于对数据集的更新方式不一样。当数据量较大时,使用改进算法得到的新数据集会比原始数据集小很多,这样在进行遍历的时候就节省了很多时间。

(2)优点

[1] 该算法的关联规则关联规则是在频繁项集基础上产生的,这可以保证这些规则的支持度达到指定的水平,具有普遍性和令人信服的水平;

[2] 算法简单,易于理解,对数据的要求低。

(3)缺点

[1] 在每一步产生候选项目集的时候循环产生的组合过多,没有排除不应参与组合的项;

[2] 每次计算项集的支持度的时候,都对数据库中的全部数据进行了一遍扫描比较,I/O负载很大。

2、算法流程

(1)问题说明

6ec7bdac20124f51b1c36db042a72057.png

(2)算法步骤(文字描述版)

2cc97e669a0232ea4dc2ef05bc495e32.png

(3)算法步骤(数学描述版)

4c1b7540809790af2602ce7c4ef009c2.png

724f91b8bcec02d30d3ad31303f689b8.png

3、详细例子

(1)例子一(靠嘴模拟)

eae3af86b19862d8771996e49c2adbcc.png

(2)例子二(R语言实操)

[1] 代码

library(arules)           # 加载arules包,里面包含了apriori函数

data(Groceries)           # 调用里面的关联分析常用的数据集Groceries
 
f1<-eclat(Groceries,parameter=list(support=0.05,maxlen=10))             # 求频繁项集

inspect(sort(f1,by="support")[1:10])   # 先根据支持度降序排序,然后查看支持度前10的频繁项集

rules<-apriori(Groceries,parameter=list(support=0.01,confidence=0.01))  # 求关联规则

summary(rules)            # 查看关联规则情况

x1<-subset(rules,subset=rhs%in%"whole milk"&lift>=1.2)   # 寻找所需要的关联规则子集

inspect(sort(x1,by="support")[1:5])    # 排序后,查看前5条关联规则

[2] 结果

f9af2ad6cbb900dbe4a8beaf6af268cc.png

c9e498d29319322c58051cbf0a430ed7.png

db0a2390ba415e662fba9786ad0bd661.png
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值