我们把某种事物发生时其他事物也会发生的联系叫作关联。所谓关联分析,就是指在交易数据、关系数据或其他信息载体中,挖掘对象集合间的规律或模式的过程。关联分析的典型案例就是购物篮分析。该过程通过挖掘购物篮中各商品之间的联系,分析顾客的购买习惯,以针对性地制订营销策略,如此等等。关联分析,又叫关联挖掘,通常按挖掘目标的不同,可以分为关联规则挖掘和序列模式挖掘。关联规则挖掘比较关注单项间在同一事务内的关系,而序列模式挖掘比较关注单项间在同一事务内以及事务间的关系。
下面将分别详述。关联规则是指形如X=>Y的蕴涵式,其中,X和Y分别称为关联规则的前项(LHS)和后项(RHS)。关联规则挖掘所发现的模式通常用关联规则或频繁项集的形式来表示。用于关联规则挖掘的数据是事务数据集,它包括事务ID和项的子集两个属性。常用关联规则挖掘算法包括Apriori算法和Eclat算法,其中Apriori算法是-种最有影响的挖掘布尔关联规则频繁项集的算法,其核心是基于两阶段频繁项集思想的递推算法,Apriori 算法可挖掘出规则;而Eclat算法是首个采用垂直数据表示的经典关联挖掘算法,以深度优先搜索为策略,以概念格理论为基础,利用前缀等价关系划分搜索空间,Eclat 算法不能直接得出规则,只能得出频繁项集。