想必大家都听说过啤酒和尿布的故事,这种烂大街的例子很好的反映出关联分析的本质,这里简要提提这个所谓的啤酒和尿布。
有好事人儿发现周末的夜晚,家庭妇男为了和球赛度过一个美丽的夜晚,需要啤酒相伴,这个时候,一家之主兼政委主席——你的妻子却还需要照顾孩子,“想看球赛没问题,买啤酒顺便买尿布”。
对购物篮进行分析之后,惊喜的发现还真有这么回事儿。
这例子孰真孰假不得知,但起码它反映出了数据分析的价值之一——将两个毫不相干的事物建议起了一个关联规则。
-
首先,先介绍一些相关术语:
1)项:在关联分析中被研究的对象,也就是上述中的啤酒、尿布
2)项集:这些对象所组成的一个集合,{啤酒,尿布}
3)k项集:{啤酒,尿布}就是一个二项集
4)频数:一个项集出现的次数
5)支持度:一个项集出现的频率
举个栗子:
TID |
Items bought |
10 |
A, B, D |
20 |