关联规则算法最出名的例子就是啤酒和尿布放一起卖。
假如我们去超市买东西,付款后,会拿到一张购物清单。这个清单就是一个Transaction。对关联规则算法来说,每个产品的购买数量是无意义的,不参与计算。
许许多多的人买东西,生成了N个购物清单,也就是N个Transaction。
那么,这些Transaction上的货物之间有什么有用的关系呢?这些关系可以用什么方式表达出来呢?这就是关联规则算法要解决的问题。
下面,我们用一个具体的例子解释这个问题:
1. 假设有三个Transaction分别是:
t1 = {'a', 'b', 'c', 'd'}
t2 = {'a', 'c', 'e'};
t3 = {'b', 'c', 'f'}
其中,abcdef都是货物的ID,简写是为了方便理解。
2. 我们看一下,就知道只要买了'a',就可能会买'c',或者说,只要买了'c'就很可能买了'a',而且,在2个Transaction上都出现了。这个规律可以表达成:
'c' ==> 'a'(66.67%)
后面的66.67%叫支持度,也就是'a'和'c'在一起出现的