关联规则数据挖掘
关联规则
1.关联规则的产生背景
最早是由Agrawal等人提出的(1993)。最初的动机是针对购物篮分析(Basket Analysis)问题提出的,其目的是为了发现交易数据库中不同商品的关联规则。之后诸多的研究人员对关联规则的挖掘问题进行了大量的研究,主要涉及关联规则的挖掘理论的探索、原有算法的改进和新算法的设计、增量式关联规则的挖掘、并行关联规则的挖掘、模糊关联规则挖掘以及关联规则的应用等问题。
2. 基本概念与原理
**1)**关联规则(AR,Association Rule)反映了一种特定的数据之间的关系。用来揭示数据与数据之间未知的相互依赖关系。他的任务就是:给定一个事物数据库T,在基于支持度-置信度框架中,发现数据与项目之间大量有趣的相关联系,生成所有的置信度和可信度分别高于用户给定的最小支持度和最小可信度的关联规则。其算法设计的两个问题:
(1) 找到所有支持度大于等于最小支持度(min_sup)的项目集(Item Sets),这些项目集称为频繁项目集(Frequent Item Sets)。
(2) 使用步骤(1)找到的频繁项目集,产生期望的规则。
**2)**关联规则的评价标准主要是支持度和置信度。支持度和置信度的两个阈值是描述关联规则的两个重要概念。为了方便将最小的支持度阈值记为min_sup,最小的置信度阈值记为min_conf。最小支持度表示项目集在统计意义上的最低重要性。最小置信度表示规则的最低可靠性。
假设 是由m个不同数据项组成的一个集合。给定一个数据事物集T,其中每一个事物记录t是I的一个非空子集,即 ,每一个事物记录都有与一个唯一的标识符TID(Transaction ID)相对应。
对于任意一个非空的项集(itemset) ,如果记录t包含X(即 ),则称记录t支持项集X。对于整个数据集T来说,X的支持度定义为包含X的记录在数据集T中所占的比例。即: