一、前言
数据挖掘(DM data mining)是从大量的,不完全的,有噪声的,模糊的,随机的数据中,提取隐含在其中的,人们事先不知道的,但又是潜在的有用的信息和知识的过程。而我们的数据库中积累了大量的用户阅读的历史数据,这些数据中隐藏着大量重要信息,利用这些信息我们可以挖掘出用户对图书的偏好,从而推荐出更好的内容给用户。以下是用微软SQL SERVER 2008中的数据挖掘关联规则做的图书推荐的实例。
二、问题分析
关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。在SQL SERVER 2008 中的关联规则用的是优先关联族算法,即FP-树频集算法[HPY00]。该算法在从大数据量中寻找频繁项集非常有效,在效率上较之Apriori算法有巨大的提高。具体运作时分两步分析:第一步通过已过精确计算的表达式寻找出项集;第二步是基于频繁项集产生规则。第二步需要的时间会明显少于第一步。下面我们了解下该算法涉及的一些关键指标:
指标名 |
含义 |
支持度 (Support) |
支持度对项集形成有影响。 用于描述项集出现频度的指标,最低支持度(Minimum_Support)意为只对达到指定频度的项集感兴趣,如果指定最低支持度为小于1的值则微软关联规则认为你只对频度达到指定百分比的项集感兴趣。比如0.03表示项集支持度只有占到总项集数的3%才能形成项集。最大支持度(Maximum_Support)则指定了项集出现频度的上限,超过上限的项集也不是我们感兴趣的。 |
概率 (Probability) |
概率对规则的形成有影响。 一条规则中有A的条件下会有B(A=>B)的概率是指 Probability (A => B) = Probability (B|A) = Support (A, B)/ Support (A) 指定一定的最低概率值就可以限制形成的规则数。 |
重要性 (Importance)</ |