用SQL Server 2008的数据挖掘实现相关阅读推荐

最新推荐文章于 2021-01-30 19:48:21 发布

lanmao100

最新推荐文章于 2021-01-30 19:48:21 发布

阅读量1.1k

点赞数

分类专栏： BI商业智能总结文章标签：数据挖掘 sql server sqlserver microsoft 数据库算法

本文链接：https://blog.csdn.net/lanmao100/article/details/7063645

版权

本文介绍了使用SQL Server 2008的数据挖掘功能，特别是关联规则，来分析用户阅读历史，从而实现相关阅读推荐。通过数据准备、模型训练和在线查询等步骤，详细阐述了如何建立和应用图书推荐模型。

摘要由CSDN通过智能技术生成

一、前言

数据挖掘（DM data mining）是从大量的，不完全的，有噪声的，模糊的，随机的数据中，提取隐含在其中的，人们事先不知道的，但又是潜在的有用的信息和知识的过程。而我们的数据库中积累了大量的用户阅读的历史数据,这些数据中隐藏着大量重要信息,利用这些信息我们可以挖掘出用户对图书的偏好，从而推荐出更好的内容给用户。以下是用微软SQL SERVER 2008中的数据挖掘关联规则做的图书推荐的实例。

二、问题分析

关联规则是描述数据库中数据项之间所存在的关系的规则，即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现，即隐藏在数据间的关联或相互关系。在SQL SERVER 2008 中的关联规则用的是优先关联族算法，即FP-树频集算法[HPY00]。该算法在从大数据量中寻找频繁项集非常有效，在效率上较之Apriori算法有巨大的提高。具体运作时分两步分析：第一步通过已过精确计算的表达式寻找出项集；第二步是基于频繁项集产生规则。第二步需要的时间会明显少于第一步。下面我们了解下该算法涉及的一些关键指标：

指标名

含义

支持度

(Support)

支持度对项集形成有影响。

用于描述项集出现频度的指标，最低支持度（Minimum_Support）意为只对达到指定频度的项集感兴趣，如果指定最低支持度为小于1的值则微软关联规则认为你只对频度达到指定百分比的项集感兴趣。比如0.03表示项集支持度只有占到总项集数的3％才能形成项集。最大支持度（Maximum_Support）则指定了项集出现频度的上限，超过上限的项集也不是我们感兴趣的。

概率

(Probability)

概率对规则的形成有影响。

一条规则中有A的条件下会有B（A=>B）的概率是指

Probability (A => B) = Probability (B|A) = Support (A, B)/ Support (A)

指定一定的最低概率值就可以限制形成的规则数。

重要性

（Importance）</