基于频繁项集的数据挖掘

最新推荐文章于 2022-10-02 20:57:59 发布

Sean_志

最新推荐文章于 2022-10-02 20:57:59 发布

阅读量2.1k

点赞数

分类专栏：数据挖掘文章标签：数据数据挖掘 python 数据分析

本文链接：https://blog.csdn.net/qiuhuaizhi/article/details/50083099

版权

频繁项集的定义

一．一些概念

商场购物车事务：

TID	Items
1	Bread, Milk
2	Bread, Diaper, Beer, Eggs
3	Milk, Diaper, Beer, Coke
4	Bread, Milk, Diaper, Beer
5	Bread, Milk, Diaper, Coke

关联规则的例子：

{Diaper} → {Beer},
{Milk, Bread} → {Eggs,Coke},
{Beer, Bread} → {Milk}

１．项集（Itemset）:一个或多个项（Item）组成的集合．例如：{Milk, Bread, Diaper}

２．支持计数（Support count (σ)）：一个项集在事务中出现的次数．

３．支持度（Support）:项集在事务中出现的次数除以事务的总数．

ｓ＝ σ ( Milk , Diaper, Beer )／ | T |

４．置信度（Confidence）:
ｃ= σ ( Milk, Diaper, Beer )／ σ ( Milk , Diaper )

５．频繁项集（Frequent Itemset）:支持度大于阈值Minsup threshold的项集．

６．关联规则（Association Rule）:例如：{Milk, Diaper} → {Beer}被称为关联规则．

二．Apriori算法

我们进行关联规则挖掘的主要任务就是根据给定的事务，在事务中寻找支持度和置信度均大于阈值的关联规则来满足我们的需求．

还是上面的例子：

{Milk,Diaper} → {Beer} (s=0.4, c=0.67)
{Milk,Beer} → {Diaper} (s=0.4, c=1.0)
{Diaper,Beer} → {Milk} (s=0.4, c=0.67)
{Beer} → {Milk,Diaper} (s=0.4, c=0.67)
{Diaper} → {Milk,Beer} (s=0.4, c=0.5)
{Milk} → {Diaper,Beer} (s=0.4, c=0.5)

由例子可以看到，上面所有的关联规则的支持度都是相同的，但他们的置信度不同，所以我们在计算分析过程中可以将支持度和置信度分开，因此，提出了如下方法：

第一步：生成频繁项集：找到所有支持度大于阈值的频繁项集．

第二步：产生规则：在频繁项集中生成置信度大的关联规则．

我们可以注意到，即使这样，我们产生频繁项集时还会有很大的计算花销，假设我们有ｄ个ｉｔｅｍ，则所需要判断的项集有２的ｄ次方个．这是很吓人的一个数字，会给计算机的计算带来非常大的压力．所以基于以上的原因，我们提出了Apriori算法用来降低算法的复杂度

Apriori算法的核心思想就是任何频繁项集的子集也一定是频繁的，换言之，如果我们能判断出一个项集是非频繁的，那所有以它为子集的父集合都是非频繁的，我们就可以删除这部分从而减少计算量．

具体的算法过程如下：

１．令k＝１．

２．产生长

最低0.47元/天解锁文章

Sean_志

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
基于频繁项集的数据挖掘

频繁项集的定义一．一些概念商场购物车事务：TIDItems1Bread, Milk2Bread, Diaper, Beer, Eggs3Milk, Diaper, Beer, Coke4Bread, Milk, Diaper, Beer5Bread, Milk, Diap
复制链接

扫一扫

专栏目录