《机器学习工程师》无监督算法3_关联规则挖掘

最新推荐文章于 2023-05-10 13:14:15 发布

gaoyishu91

最新推荐文章于 2023-05-10 13:14:15 发布

阅读量477

点赞数

分类专栏： Machine_Learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gaoyishu91/article/details/80377122

版权

Machine_Learning 专栏收录该内容

22 篇文章 0 订阅

订阅专栏

本文介绍了关联规则挖掘的基础概念，包括Support、Confidence和Lift，以及它们在购物篮分析中的应用。关联规则挖掘用于发现物品之间的关联性，例如在购买数据中找出购买A商品的顾客更可能购买B商品的规律。文章通过实例解释了如何计算这些指标，并讨论了算法设计中设置阈值的重要性。

摘要由CSDN通过智能技术生成

一：什么是关联规则挖掘

Association Rule

如果一个人买了A，那么他买B的概率是多少。

关联规则挖掘的三个重要的基本概念：Support,Confidence,Lift.

Support：一个关联规则的支持度 Confidence：置信度 Lift：相关性

形式化定义：

I = {i1,i2...in}包含n个二元变量（布尔变量），每一个i代表一个物品。in=1代表该物品在购物篮中出现，反之等于0就是没有出现。D = {t1,t2...tm}包含m个交易，称D为一个数据库。每一个交易tj包含物品集合I的一个子集。比如下图t1那一行就是一个交易，该交易包含一个完整的物品集合。

一个关联规则定义为X=>Y（通过是否买X推出是否买Y，证明他们是否关联）,X,Y都属于I。一般X，Y不相交。（肯定啦，因为要通过X推导出Y嘛，买了牛奶肯定会买牛奶对吧）

总共有多少个关联规则呢？如果给你n个二元变量，都是取1或者0。(2^n - 1)^2 个。

再回过头来看看support，confidence和lift。

support是基础：所有的交易中（T是交易总数），t是在T这个数据库中的数据，t的交易中都出现了X。换言之，就是出现X的交易占总体交易的多少。

Confidence：利用support得到的条件概率。在所有出现X的交易记录中，有多少条出现Y。

Lift：分子代表X和Y共同出现的概率，分母是X和Y独自出现的乘积。信息论中互信息的定义。

二：关联数据挖掘概念及算法

supp(x)和conf(X->y)必须大于某个阈值

理解：如果supp(x)很小，那么研究这个就没有意义；conf一样。

算法的设计：

1. 定义supp(x)的阈值来挖掘频繁集->重点哟
理解：放更多的关注在那些交易比较多的物品或者交易。在一个数据库中频繁出现的集合。

2. 定义conf(X->y)的阈值用来挖掘关联规则->简单统计

三：购物篮分析与频繁集挖掘

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。