1、关联分析介绍

项集(Item Set):一个小票上的内容就可以看作一个项集,通过关联分析得到的经常一起出现的啤酒和尿布可以称为一个 “频繁项集”。
关联规则: 根据频繁项集挖掘出的结果,例如 {尿布}→{啤酒},规则的左侧称为先导,右侧称为后继。
支持度: 支持度就是一个项集在数据中出现的比例。支持度还可以用来判定一条规则是否还需要继续进行挖掘,如果支持度已经很低,再加入新的项肯定会更低,挖掘的意义不大。
支持度(尿布)=尿布出现的次数购物小票出现的次数=0.9支持度(尿布)=\frac{尿布出现的次数}{购物小票出现的次数} =0.9支持度(尿布)=购物小票出现的次数尿布出现的次数=0.9
置信度: 置信度指的是在一条规则中,出现先导也出现后继的比例,置信度表示的是一条规则的可靠程度。
置信度(尿布→啤酒)=支持度(尿布U啤酒)支持度(尿布)=0.89置信度(尿布\rarr啤酒)=\frac{支持度(尿布U啤酒)}{支持度(尿布)} =0.89置信度(尿布→啤酒)

本文介绍了关联分析中的概念,如项集、频繁项集和关联规则,以及支持度和置信度的计算。通过实例展示了如何使用Apriori算法挖掘数据集中的频繁项集和规则,并提供了Python代码实现。
最低0.47元/天 解锁文章
447

被折叠的 条评论
为什么被折叠?



