【数据挖掘】关联规则、频繁项集、闭项集详解（图文解释超详细）

最新推荐文章于 2024-07-14 09:10:52 发布

showswoller

最新推荐文章于 2024-07-14 09:10:52 发布

阅读量3.8k

点赞数 14

分类专栏：数据挖掘文章标签：数据挖掘人工智能关联关泽

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jiebaoshayebuhui/article/details/128592273

版权

数据挖掘专栏收录该内容

39 篇文章 17 订阅

订阅专栏

关联规则分析用于发现数据集中的项之间关联，如在超市购物篮数据中找到商品组合。常见算法包括Apriori和FP-growth。通过支持度和置信度衡量规则重要性，挖掘频繁项集和强关联规则，有助于市场营销策略制定。

摘要由CSDN通过智能技术生成

1：关联规则分析概述

关联规则分析用于在一个数据集中找出各数据项之间的关联关系，广泛用于购物篮数据、生物信息学、医疗诊断、网页挖掘和科学数据分析中

关联规则分析又称购物篮分析，最早是为了发现超市销售数据库中不同商品之间的关联关系

例如有一些超市购物清单，每单有一些商品，如何从中找到最常用的组合，再如快餐店点餐，客户可能点鸡翅和薯条，或者汉堡和可乐，从消费者的角度选择套餐会比单点更加便宜，另外从商家的角度，如何从消费者的行为习惯中发现套餐不仅可以促进消费，还能在一定程度上提高消费者的忠诚度

采用关联模型比较典型的案例是尿布与啤酒的故事。在美国，一些年轻的父亲下班后经常要到超市区买尿布，超市也因此发现一个规律，在购买尿布的年轻父亲中，有百分之三十到四十的人要同时买一些啤酒，超市随后调整了货架的摆放，把尿布和啤酒放在一起，明显增加了销售额，同样的还可以根据关联规则在商品销售方面做各种促销活动

关联规则分析通过量化的数字描述某物品的出现对其他物品的影响程度，是数据挖掘中较活跃的研究方法之一。目前，常用的关联规则分析算法如表6-1所示

2：频繁相机、闭项集和关联规则

关联规则分析最早是为了发现超市销售数据库中不同商品间的关联关系

频繁模式（Frequent Pattern）是指频繁出现在数据集中的模式（如项集，子序列或子结构）

挖掘频繁模式可以揭示数据集的内在的、重要的特性，可以作为很多重要数据挖掘任务的基础，比如

1. 关联规则的表示形式

模式可以用关联规则（Association Rule）的形式表示。例如购买计算机也趋向于同时购买打印机，可以用如下关联规则表示

规则的支持度（Support）和置信度（Confidence）是规则兴趣度的两种度量，分别反映规则的有用性和确定性

2.频繁项集和闭项集

同时满足最小支持度阈值（min_sup）和最小置信度阈值（min_conf）的规则称为强关联规则

一般来说，关联规则的挖掘可以看作两步的过程

（1）找出所有频繁项集，该项集的每一个出现的支持度计数≥ min_sup

（2）由频繁项集产生强关联规则，即满足最小支持度和最小置信度的规则

由于第2步的开销远小于第1步，因此挖掘关联规则的总体性能由第1步决定。第1步主要是找到所有的频繁k项集，而在找频繁项集的过程中，需要对每个k项集，计算支持度计数以发现频繁项集，k项集的产生过程如图6.1

因此，项集的个数太大严重影响算法的效率。为了克服这一困难，引入闭频繁项集和极大频繁项集的概念

项集X在数据集D中是闭的（Closed），如果不存在X的真超项集Y使得Y与X在D中具有相同的支持度计数

发现频繁项集是挖掘关联规则的基础。Apriori算法通过限制候选产生发现频繁项集，FP-growth算法发现频繁模式而不产生候选

创作不易觉得有帮助请点赞关注收藏~~~

关注

14
点赞
踩
23

收藏

觉得还不错? 一键收藏
打赏
1
评论
【数据挖掘】关联规则、频繁项集、闭项集详解（图文解释超详细）

【数据挖掘】关联规则、频繁项集、闭项集详解（图文解释超详细）
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

showswoller 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。