许多商业企业运营中的大量数据,通常称为购物篮事务(market basket transaction)。表中每一行对应一个事务,包含一个唯一标识TID。
利用关联分析的方法可以发现联系如关联规则或频繁项集。
关联分析需要处理的关键问题:
1. 从大型事务数据集中发现模式可能在计算上要付出很高的代价。
2. 所发现的某些模式可能是假的,因为它们可能是偶然发生的。
二元表示
没按过对应一个事务,每列对应一个项,项用二元变量表示
项在事务中出现比不出现更重要,因此项是非对称的的二元变量。
项集(Itemset):包含0个或多个项的集合,如果包含k个项,则称为k-项集。
事务的宽度:事务中出现的项的个数
支持度数(Support count):包含特定项集的事务个数,项集X的支持度数为 σ(X)=|ti|X⊆ti</