Sql Server2008数据挖掘

前言
数据挖掘(DM data mining)是从大量的,不完全的,有噪声的,模糊的,随机的数据中,提取隐含在其中的,人们事先不知道的,但又是潜在的有用的信息和知识的过程。而我 们的图书馆的数据库中积累了大量的读者借阅历史数据,这些数据中隐藏着大量重要信息,利用这些信息我们可以挖掘出读者对图书资源的借阅偏好模式。于是我们 便利用微软SQL SERVER 2005中的数据挖掘关联规则模块建立一个在线书目推荐服务系统,以提高图书馆的服务水平。
二、    问题分析
关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关 系。在SQL SERVER 2005 中的关联规则用的是优先关联族算法,即FP-树频集算法[HPY00]。该算法在从大数据量中寻找频繁项集非常有效,在效率上较之Apriori算法有巨 大的提高。具体运作时分两步分析:第一步通过已过精确计算的表达式寻找出项集;第二步是基于频繁项集产生规则。第二步需要的时间会明显少于第一步。下面我 们了解下该算法涉及的一些关键指标:
指标名 含义
支持度
(Support) 支持度对项集形成有影响。
用于描述项集 出现频度的指标,最低支持度(Minimum_Support)意为只对达到指定频度的项集感兴趣,如果指定最低支持度为小于1的值则微软关联规则认为你 只对频度达到指定百分比的项集感兴趣。比如0.03表示项集支持度只有占到总项集数的3%才能形成项集。最大支持度(Maximum_Support)则 指定了项集出现频度的上限,超过上限的项集也不是我们感兴趣的。
概率
(Probability) 概率对规则的形成有影响。
一条规则中有A的条件下会有B(A=>B)的概率是指
Probability (A => B) = Probability (B|A) = Support (A, B)/ Support (A)
指定一定的最低概率值就可以限制形成的规则数。
重要性
(Importance) 重要性对项集和规则形成均有影响。
它的定义如下:
Importance (A => B) = log (p(B|A)/p(B|not A))
从定义知如果该值为0表示A和B没有关联性,正值表示一旦拥有A则再拥有B的概率会增长,负值表示一旦拥有A则再拥有B的概率会降低。
三、    数据准备
我们收集了兰州商学院图书馆2002年到2005年的读者借阅数据,数据库具体关系如下:
“一次借阅标识”意义在于形成用户借阅的项集,举例说:甲乙(单次借阅标识分别是1和2)两人一次都借了3本书丙(单次借阅标识分别是3)一次借了两本,得到如下表所示记录:
借阅历史表
借阅流水号(主键) 单次借阅标识(外键) 书名
1 1 C#编程事件
2 1 .Net核心编程
3 1 .Net网络编程
4 2 ASP.NET高级编程
5 2 .Net核心编程
6 2 .Net网络编程
7 3 Windows API 速查手册
8 3 C#编程事件

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值