从零开始的《数据挖掘与大数据分析》课堂学习笔记-5 第三章 关联数据挖掘

本文介绍了关联数据挖掘的概念,包括购物篮分析、支持度和置信度等重要概念。重点讲解了Apriori算法和FP-Growth算法,以及它们在挖掘频繁项集和关联规则中的应用。此外,还讨论了提高算法效率的方法和关联规则的评估标准。
摘要由CSDN通过智能技术生成

第三章 关联数据挖掘

首先明确本章需要学习掌握的内容

本章内容可以说是很多了 所以在最开始确定一下重点
回头也可以有目的地去进行了解~

几个重要概念

这些概念一定要非常清楚
要达到能随意应用的程度

  • 支持度
  • 置信度
  • 频繁项集
  • 关联规则(掌握!)

关联规则挖掘算法

考试很有可能要考这个哦~ 所以要重点掌握
尤其是 Apriori算法 要重点进行掌握~

  • Apriori算法——掌握
  • FP-Growth算法——理解

关联规则评估(理解)

以上内容需要熟记于心~

1.什么是关联规则挖掘?

经典例子——购物篮分析

假设我们是一个超时的市场分析员
我们在清点顾客的购买清单时发现——
有一些商品的组合频繁地被顾客购买
于是~专业的我们 准备挖掘商品组合之间的关系 这 就是关联数据挖掘
在这里插入图片描述
关联数据挖掘的目的:在事务、关系数据库中的项集和对象中发现频繁模式、关联规则、相关性或者因果结构

频繁模式:数据库中频繁出现的项集

其他应用举例

购物篮分析 交叉销售 医疗诊断 网页挖掘 科学数据分析 产品目录设计生物信息学

[考点]数据集中支持度的计算

这是个考点诶~给个表格 计算置信度支持度 可见还是重要的

例子——

给定一个数据集

在这里插入图片描述

接下来看一看数据集相关的一些概念

频繁项集

满足最小支持阈值的所有项集

也就是出现次数大于给定阈值的项集

项集
  • 包含0个或多个项的集合

——例如:{Milk,Bread,Diaper}

  • k-项集:包含k个项的项集
支持度计数 support count

在这里插入图片描述

  • 包含特定项集的事务个数

——例如:
在这里插入图片描述

{Milk,Bread,Diaper}的支持度计数=2

支持度 support
  • 包含项集的事务数/总事务数

小例子:

在这里插入图片描述
support({Milk,Bread,Diaper})=2/5

[考点]关联规则的强度——置信度和支持度的计算

关联规则

形如X—>Y的蕴含表达式

其中X Y是不相交的项集

例如:{milk,diaper}——>{Bear}

衡量关联规则的强度——支持度 置信度
  • 支持度 support(X—>Y)

确定项集的频繁程度

在这里插入图片描述

  • 置信度 Confidence(X—>Y)

确定Y在包含X的事务中出现的频繁程度

在这里插入图片描述

在这里插入图片描述
表示事务包含集合A B中每个项的概率

2.挖掘关联规则的一般步骤

1.频繁项集产生(Frequent Itemset Generation&

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值