立即学习:https://edu.csdn.net/course/play/27362/368001?utm_source=blogtoedu
关联分析:如啤酒和尿布
特点:1.没有标准答案
2.可选答案无限
3.是如何进行组合的问题
获取最优的组合方案
关联分析:发现隐藏在大型数据集下有意义的联系
发现事务库中隐含的频繁项集
1)支持度计数
项X,Y同时出现的次数。
2)计算支持度
支持度=支持度计数/事务库事务总数
3)置信度计数
计算Y在X出现的事务中出现的次数
4)计算置信度
项Y在项X出现的事务置信度=(X,Y)的置信度计数/项X出现的次数
5)确定频繁项集
按照预先设定的支持度和置信度确定频繁项集
快速找到频繁项集
常用算法:
APripri:核心目标:降低产生频繁项集的复杂度。
如果一个项集是频繁的,那么它的子集是频繁的
如果一个项集是非频繁的,那么它的超级是非频繁的
1)寻找频繁项集
2)计算置信度
confidence(A->B)=P(B|A)
FP-Tree