数据挖掘笔记：关联规则

最新推荐文章于 2023-02-19 16:53:47 发布

a44267113

最新推荐文章于 2023-02-19 16:53:47 发布

阅读量2.6k

点赞数 3

分类专栏：数据挖掘学习笔记文章标签：数据挖掘人工智能算法

本文链接：https://blog.csdn.net/a44267113/article/details/128185603

版权

5 篇文章 0 订阅

订阅专栏

什么是关联规则

从那个 尿布和啤酒的故事 中不难看出，虽然是两个完全不相关的事物之间也可能存在一定的关系——这也就是所谓的关联规则；

关联规则：反映一个事物与其他事物之间的相互依存性和关联性，是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。

根据上述规则，下面给出个例子：

关联规则的强度可以用它的支持度和置信度度量。可以看到，面包和黄油一起的关系在所有组合中支持度最高；

关联规则的支持度：支持度是一种重要度量，因为支持度很低的规则可能只是偶然出现，从商务角度来看，低支持度的规则多半也不是令人感兴趣的，因为对顾客很少同时购买的商品进行促销可能并无益处。因此，支持度通常用来删除那些不令人感兴趣的规则；
关联规则的置信度：置信度通过规则进行推理的可靠性。对于给定的规则 X —>Y，置信度越高，Y 在包含 X 的事务中出现的可能性就越大；
提升度：提升度代表的是“商品 A 的出现，对商品 B 的出现概率提升的”程度。计算公式如下：提升度 (A→B)=置信度 (A→B)/ 支持度 (B)
所以提升度有三种可能：
（1）提升度 (A→B)>1：代表有提升；
（2）提升度 (A→B)=1：代表有没有提升，也没有下降；
（3）提升度 (A→B)<1：代表有下降。

简介：如果一个项集是频繁的，则它的所有子集一定也是频繁的。相反，如果一个项集是非频繁的，则它所有的超集也是非频繁的；
支持度的反单调性(anti-monotone)：一个项集的支持度绝不会超过它的子集的支持度；
基于此原理，我们就能对项集进行 基于支持度的剪枝(support-based pruning)，不用计算支持度就能删除掉某些非频繁项集——>