关联规则挖掘
关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系
关联规则挖掘的基本概念
关联规则挖掘(Association rule mining):
- 关联规则挖掘的主要对象是交易型数据库,一个交易一般会由交易处理时间,一组顾客购买的物品,有时也有顾客标识号组成。
- 关联规则挖掘用以挖掘一次交易中,物品之间同时出现的规律的只是模式,以反映顾客的购买行为。
- 更确切的说,关联规则是通过量化的数字来描述物品X的出现对物品Y的出现有多大的影响。
引例:
购物篮分析是关联规则挖掘的最初形式。
如,某商店经理可能更想了解如下的消费习惯:“顾客多半会在购物时同时购买什么样的商品组合?”
为了解答这个问题,可以在商店顾客事务零售数据库上进行购物篮分析。
分析的结果可用于市场规划、广告策划和分类设计。
例如,在购买计算机的同时购买财务管理软件,可用如下关联规则表示:
computer => finacial_management_software[support=2%,confidence=60%]
- 关联规则的支持度(support)2%表示:全部事务中,有2%的交易同时购买计算机和财务管理软件。
- 关联规则的置信度(confidence)60%表示:购买计算机的顾客中,有60%也同时购买了财务管理软件。
事务数据库:
- 设 I = I= I={ i 1 , i 2 , … , i m i_1 ,i_2, … , i_m i1,i2,…,im}是一个项目集合,事务数据库 D = D= D={ t 1 , t 2 , . . . , t n t_1,t_2, ... ,t_n t1,t2,...,tn}是由一系列具有唯一标识 T I D TID TID的事务组成,每个事务 t i t_i ti( i = 1 , 2 , … , n i=1, 2, … , n i=1,2,…,n)都对应 I I I上的一个子集。
示例: 购物记录
- I I I是全部物品集合,如商场现有的所有商品。
- D D D是购物清单,如顾客的购物清单;
- D D D中的每个元组 t i ti t