mysql中怎么实现Apriori_关联规则Apriori算法及实现(python)

一,概念

表1某超市的交易数据库

交易号TID

顾客购买的商品

交易号TID

顾客购买的商品

T1

面包,奶油,牛奶,茶

T6

面包,茶

T2

面包,奶油,牛奶

T7

啤酒,牛奶,茶

T3

蛋糕,牛奶

T8

面包,茶

T4

牛奶,茶叶 T9

面包,奶油,牛奶,茶

T5

面包,蛋糕,牛奶

T10

面包,牛奶,茶

定义一:

设I = {i1,i2,…,im},是m个不同的项目的集合,每个ik称为一个项目。项目的集合我称为项集。其元素的个数称为项集的长度,长度为k的项集称为k-项集。引例中每个商品就是一个项目,项集为I = {面包,啤酒,蛋糕,奶油,牛奶,茶},我的长度为6.

定义二:

每笔交易T是项集I的一个子集。对应每一个交易有一个唯一标识交易号,记作TID。交易全体构成了交易数据库D,|D|等于D中交易的个数。引例中包含10笔交易,因此|D|=10。

定义三:

对于项集X,设定count(X⊆T)为交易集D中包含X的交易的数量,则项集X的支持度为:s u p p o r t ( X ) = c o u n t ( X ⊆ T ) / ∣ D ∣ support(X)=count(X⊆T)/|D|support(X)=count(X⊆T)/∣D∣

引例中X={bread, milk}出现在T1,T2,T5,T9和T10中,所以支持度为0.5。

定义四:

最小支持度是项集的最小支持阀值,记为SUPmin,代表了用户关心的关联规则的最低重要性。支持度不小于SUPmin 的项集称为频繁集,长度为k的频繁集称为k-频繁集。如果设定SUPmin为0.3,引例中{bread, milk}的支持度是0.5,所以是2-频繁集。

定义五:

关联规则是一个蕴含式:R : X ⇒ Y R:X⇒YR:X⇒Y

其中X⊂I,Y⊂I,并且X∩Y=⌀。表示项集X在某一交易中出现,则导致Y以某一概率也会出现。用户关心的关联规则,可以用两个标准来衡量:支持度和可信度。

定义六:

关联规则R的支持度是交易集同时包含X和Y的交易数与|D|之比。即:

s u p p o r t ( X ⇒ Y ) = c o u n t ( X ⋂ Y ) / ∣ D ∣ support(X⇒Y)=count(X⋃Y)/|D|support(X⇒Y)=count(X⋂Y)/∣D∣

支持度反映了X、Y同时出现的概率。关联规则的支持度等于频繁集的支持度。

定义七:

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值