关联规则挖掘是一种常用的数据挖掘手段,本文作为关联规则挖掘的第一篇文章,将主要介绍关联规则挖掘的来历与目的,以购物篮分析的一个简单例子熟悉基本概念,以及从多维度对关联规则挖掘进行分类。
一、概述
相信大家都听过啤酒与尿布的故事,这就是一个最典型的关联规则挖掘的例子:购物篮分析。通过发现顾客放入其购物篮中不同商品之间的联系,分析顾客的购买习惯,进而了解哪些商品频繁地被顾客同时购买,这种关联规则的发现可以帮助零售商制定营销策略。例如,在同一次去超市,如果顾客购买牛奶,他也购买面包的可能性有多大?通过帮助零售商有选择地经销和安排货架,这种信息可以引导销售。例如,将牛奶和面包尽可能放近一些,可以进一步刺激一次去商店同时购买这些商品;亦或者将牛奶和鸡蛋放在商店的两端,可能诱发买这些商品的顾客一路挑选其它商品。
关联规则挖掘的目的是发现大量数据中项集之间有趣的关联或相关联系。随着大量数据不停地收集和存储,许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣。从大量商务事务记录中发现有趣的关联关系,可以帮助许多商务决策的制定,如分类设计、交叉购物和贱卖分析。
二、基本概念
以一个简单的例子来理解基本概念:
t1: 牛肉、鸡肉、牛奶
t2: 牛肉、奶酪
t3: 奶酪、靴子
t4: 牛肉、鸡肉、奶酪
t5: 牛肉、鸡肉、衣服、奶酪、牛奶
t6: 鸡肉、衣服、牛奶
t7: 鸡肉、牛奶、衣服
I={
i1,i2,...,im} 是项的集合,即 I={
牛肉,鸡肉,牛奶,奶酪,靴子,衣服} 。
任务相关的数据D是数据库事务的集合,其中每个事务T是项的集合,使得 T⊆I ,即 D={
t1,t2,t3