关联规则探索
目标:确定同时购买的几样物品
方法:处理通过以下渠道收集的销售数据
- 条形码扫描仪以查找依赖关系
经典法则:
- 如果有人购买尿布和牛奶,那么他/她就可能买啤酒
- 如果在尿布旁边发现六包,不要感到惊讶!
定义
频繁项集 frequent itemsets
关联规则 Association rules::信心,支持,兴趣
用于查找频繁项集 frequent itemsets的算法
寻找频繁的对 Finding frequent pairs
- A-Priori算法
- PCY算法
为了减少规则数量,我们可以 对它们进行后处理,仅输出: - 最大频繁项集: Maximal frequent itemsets:
没有立即的超集是频繁的- 提供更多修剪 pruning
或者
- 封闭项目集:
没有立即超集具有相同的支持(> 0)- 不仅存储频繁的信息,而且存储准确的信息
支持/计数
- 不仅存储频繁的信息,而且存储准确的信息
对于许多频繁项集算法,主内存main-memory是关键资源
- 阅读篮子时,我们需要数数,例如,成对物品的出现
- 我们可以计算的不同事物的数量受主内存限制
- 交换数进/出是一场灾难