从零开始的《数据挖掘与大数据分析》课堂学习笔记-5 第三章关联数据挖掘

最新推荐文章于 2023-01-17 00:00:21 发布

敲代码的小提琴手

最新推荐文章于 2023-01-17 00:00:21 发布

阅读量1.2k

点赞数 1

分类专栏：课堂笔记-数据挖掘与大数据分析文章标签：数据库数据挖掘大数据

嘿朋友谢谢你复制我的文章喜欢的话给点个赞交个朋友吧~

本文链接：https://blog.csdn.net/qq_45704942/article/details/114847005

版权

本文介绍了关联数据挖掘的概念，包括购物篮分析、支持度和置信度等重要概念。重点讲解了Apriori算法和FP-Growth算法，以及它们在挖掘频繁项集和关联规则中的应用。此外，还讨论了提高算法效率的方法和关联规则的评估标准。

摘要由CSDN通过智能技术生成

文章目录

第三章关联数据挖掘

第三章关联数据挖掘

首先明确本章需要学习掌握的内容

本章内容可以说是很多了所以在最开始确定一下重点
回头也可以有目的地去进行了解~

几个重要概念

这些概念一定要非常清楚
要达到能随意应用的程度

支持度
置信度
频繁项集
关联规则（掌握！）

关联规则挖掘算法

考试很有可能要考这个哦~ 所以要重点掌握
尤其是 Apriori算法要重点进行掌握~

Apriori算法——掌握
FP-Growth算法——理解

关联规则评估（理解）

以上内容需要熟记于心~

1.什么是关联规则挖掘？

经典例子——购物篮分析

假设我们是一个超时的市场分析员
我们在清点顾客的购买清单时发现——
有一些商品的组合频繁地被顾客购买
于是~专业的我们准备挖掘商品组合之间的关系这就是关联数据挖掘
在这里插入图片描述
关联数据挖掘的目的：在事务、关系数据库中的项集和对象中发现频繁模式、关联规则、相关性或者因果结构

频繁模式：数据库中频繁出现的项集

其他应用举例

购物篮分析交叉销售医疗诊断网页挖掘科学数据分析产品目录设计生物信息学

[考点]数据集中支持度的计算

这是个考点诶~给个表格计算置信度和支持度可见还是重要的

例子——

给定一个数据集

在这里插入图片描述

接下来看一看数据集相关的一些概念

频繁项集

满足最小支持阈值的所有项集

也就是出现次数大于给定阈值的项集

项集

包含0个或多个项的集合

——例如:{Milk,Bread,Diaper}

k-项集：包含k个项的项集

支持度计数 support count

在这里插入图片描述

包含特定项集的事务个数

——例如:
在这里插入图片描述

{Milk,Bread,Diaper}的支持度计数=2

支持度 support

包含项集的事务数/总事务数

小例子：

在这里插入图片描述
support({Milk,Bread,Diaper})=2/5

[考点]关联规则的强度——置信度和支持度的计算

关联规则

形如X—>Y的蕴含表达式

其中X Y是不相交的项集

例如：{milk,diaper}——>{Bear}

衡量关联规则的强度——支持度置信度

支持度 support(X—>Y)

确定项集的频繁程度

在这里插入图片描述

置信度 Confidence(X—>Y)

确定Y在包含X的事务中出现的频繁程度

在这里插入图片描述

表示事务包含集合A B中每个项的概率

2.挖掘关联规则的一般步骤

1.频繁项集产生（Frequent Itemset Generation&

最低0.47元/天解锁文章

敲代码的小提琴手

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
从零开始的《数据挖掘与大数据分析》课堂学习笔记-5 第三章关联数据挖掘

文章目录第三章关联数据挖掘首先明确本章需要学习掌握的内容几个重要概念关联规则挖掘算法关联规则评估（理解）1.什么是关联规则挖掘？经典例子——购物篮分析其他应用举例[考点]数据集中支持度的计算频繁项集项集支持度计数 support count支持度 support[考点]关联规则的强度——置信度和支持度的计算关联规则衡量关联规则的强度——支持度置信度2.挖掘关联规则的一般步骤1.**频繁项集产生**（Frequent Itemset Generation）Brute-force 方法降低产生频繁项集计算复
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。