《机器学习工程师》无监督算法3_关联规则挖掘

本文介绍了关联规则挖掘的基础概念,包括Support、Confidence和Lift,以及它们在购物篮分析中的应用。关联规则挖掘用于发现物品之间的关联性,例如在购买数据中找出购买A商品的顾客更可能购买B商品的规律。文章通过实例解释了如何计算这些指标,并讨论了算法设计中设置阈值的重要性。
摘要由CSDN通过智能技术生成

一:什么是关联规则挖掘

Association Rule 

如果一个人买了A,那么他买B的概率是多少。

关联规则挖掘的三个重要的基本概念:Support,Confidence,Lift.

Support:一个关联规则的支持度  Confidence:置信度  Lift:相关性

形式化定义:

I = {i1,i2...in}包含n个二元变量(布尔变量),每一个i代表一个物品。in=1代表该物品在购物篮中出现,反之等于0就是没有出现。D = {t1,t2...tm}包含m个交易,称D为一个数据库。每一个交易tj包含物品集合I的一个子集。比如下图t1那一行就是一个交易,该交易包含一个完整的物品集合。


一个关联规则定义为X=>Y(通过是否买X推出是否买Y,证明他们是否关联),X,Y都属于I。一般X,Y不相交。(肯定啦,因为要通过X推导出Y嘛,买了牛奶肯定会买牛奶对吧)

总共有多少个关联规则呢?如果给你n个二元变量,都是取1或者0。(2^n - 1)^2 个。

再回过头来看看support,confidence和lift。


support是基础:所有的交易中(T是交易总数),t是在T这个数据库中的数据,t的交易中都出现了X。换言之,就是出现X的交易占总体交易的多少。

Confidence:利用support得到的条件概率。在所有出现X的交易记录中,有多少条出现Y。

Lift:分子代表X和Y共同出现的概率,分母是X和Y独自出现的乘积。信息论中互信息的定义。



二:关联数据挖掘概念及算法 

supp(x)和conf(X->y)必须大于某个阈值

理解:如果supp(x)很小,那么研究这个就没有意义;conf一样。

算法的设计:

1. 定义supp(x)的阈值来挖掘频繁集->重点哟
理解:放更多的关注在那些交易比较多的物品或者交易。在一个数据库中频繁出现的集合。

2. 定义conf(X->y)的阈值用来挖掘关联规则->简单统计 


三:购物篮分析与频繁集挖掘






评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值