数据挖掘——关联规则以及Apriori算法

最新推荐文章于 2024-06-28 00:19:05 发布

猪头的梦想

最新推荐文章于 2024-06-28 00:19:05 发布

阅读量3k

点赞数 1

分类专栏：数据挖掘，关联规则文章标签：数据挖掘关联规则

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/handsome_304/article/details/78835835

版权

数据挖掘，关联规则专栏收录该内容

1 篇文章 0 订阅

订阅专栏

个人笔记分享：

1、学习关联规则首先要了解以下几个概念——

<1> 任意一个ij称为一个项目，I={i1, i2,…, im}为所有项目的集合。

<2> D为事务数据库。

<3> 事务T是一个项目子集，T包含于I。每一个事务（交易）具有唯一的事物标识Tid。

<4> 设A是由项目构成的集合，称为项集。事务T包含项集A，如果项集A由k个项目组成，则称A为k项集。

<5> 项集A在事务数据库D中出现的次数占D中总交易量的百分比叫做项集A的支持度。记为support（A）。

<6> 如果项集的支持度超过用户给定的最小支持度阈值，就称为频繁项集。

<7> 如果一个k项集是频繁的，称其为频繁k项集。

<8> 规则的信任度：关联规则是形如X→Y的蕴涵式，X包含于项目的集合I、Y包含于项目的集合I且X与Y没有交集，当事务数据库D中有s%的事务包含XUY，则称关联规则X→Y的支持度为s%（实际上支持度是一个概率值）。项集的支持度记为support(X)，则规则的信任度为support(XUY)/support(X)。

2、关联规则的概念、性质以及发现关联规则的步骤——

<1> 关联规则就是支持度和信任度分别满足用户给定阈值的规则。

<2> 关联规则的性质：频繁项集的子集必为频繁项集。非频繁项集的超集一定是非频繁的。

<3> 步骤：首先找出所有频繁项集（支持度超过用户给定的最小支持度阈值），然后再由频繁项集生成满足最小信任度阈值的规则。

3、Apriori算法

Apriori算法发现关联规则的过程分为两个步骤。首先通过迭代，检索出事务数据库中的所有频繁项集，即支持度不低于用户设定的阈值的项集。然后利用频繁项集构造出满足用户最小信任度的规则。挖掘或识别出所有的频繁项集是该算法的核心。

由m个项目形成的不同项集的数目可以达到（2的m次方）-1，通过关联规则的性质“频繁项集的子集必为频繁项集”，Apriori算法引入了潜在频繁项集的概念。频繁k项集包含于潜在频繁k项集包含于 m个项目构成的k项集的集合。

其中潜在频繁k项集的集合是指有可能成为频繁k项集的项集组成的集合。

以后只需计算潜在频繁项集的支持度，而不必计算所有项集的支持度，因此在一定基础上减少了计算量。

具体实现过程如下：

<1> 发现频繁项集的过程：

1、扫描

2、计数

3、比较

4、产生频繁项集

5、连接、剪枝、产生候选项集

<2> 产生关联规则的实现过程：

1、通过单趟扫描数据库D计算出各个1项集，得到频繁1项集集合L1。

2、连接步：为了产生频繁K项集集合Lk，预先生成一个潜在频繁K项集的集合Ck。

3、剪枝步。

4、通过单趟扫描数据库D，计算Ck中各项集支持度。

5、将Ck中不满足最小支持度的项集剔除，形成频繁项集Lk。

6、通过迭代循环重复2---5，直到不再产生频繁项集。

JOIN运算：

看完上面的可以通过例题进行巩固了。

猪头的梦想

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。