一. Eclat 是一种使用垂直数据出发得到频繁项集的算法
Apriori 算法和FP-growth 都是从水平数据格式出发,获得频繁项集的方法, 本文将介绍一种从垂直数据出发得到频繁项集的算法 Eclat(Equivalence Class Transformation), Eclat的优势是只需扫描一遍完整的数据库, 劣势是,频繁项较多时的集合的交集运算会比较花费时间,且对计算资源需求较大
本文采用《数据挖掘概念与技术》中的数据集,并使用该书中的结果验证代码结果的准确性 .
可以在我们的 “数据臭皮匠” 中输入"第六章4" 拿到
1.手动输入书中的数据
data_ls ={
'T100':['I1','I2','I5'],
'T200':['I2','I4'],
'T300':['I2','I3'],
'T400':['I1','I2','I4'],
'T500':['I1','I3'],
'T600':['I2','I3'],
'T700':['I1','I3'],
'T800':['I1','I2','I3','I5'],
'T900':['I1','I2',