关联规则就是形如A->B的表达式,A和B是整个项集中互不相交的两个子项。
关联规则挖掘的主要目的在于发现数据中有意义的关联关系。购物篮分析就是通过分析顾客的购买行为来发现不同商品之间的联系。
支持度、置信度、提升度的定义:
支持度(A->B)=|AB|/|S|
置信度(A->B)=|AB|/|A|
提升度(A->B)=置信度(A->B)/P(B)
生成关联规则的步骤为:
第一步:生成频繁项集(满足最小支持度)
第二部:生成强规则集(满足最小置信度)
Apriori算法的步骤:
1.计数
2.剪枝
3.k-项连接
Partition 算法的步骤:
1.先把数据库从逻辑上分成几个互不相交的块,每次单独考虑一个分块并对它生成所有的频集;
2.然后把产生的频集合并,用来生成所有可能的频集;
3.最后计算这些项集的支持度。
这里分块的大小选择要使得每个分块可以被放入主存,每个阶段只需被扫描一次。而算法的正确性是由每一个可能的频集至少在某一个分块中是频集保证的。上面所讨论的算法是可以高度并行的,可以把每一分块分别分配给某一个处理器生成频集。产生频集的每一个循环结束后,处理器之间进行通信来产生全局的候选k-项集。通常这里的通信过程是算法执行时间的主要瓶颈;而另一方面,每个独立的处理器生成频集的时间也是一个瓶颈。其他的方法还有在多处理器之间共享一个杂凑树来产生频集。