OLE DB for Data Mining中的基本概念

OLE DB for Data Mining 为一系列的数据挖掘对象定义了通用的概念。下面分别来介绍这些概念。

实例(Case)

数据挖掘是用来分析实例的一个实例是一个基本的信息实体。它包括一系列的属性,比如性别和年龄。属性也可以叫做统计学中的变量。一个属性可能有一系列的值,称为状态。例如,性别属性有2种状态:男和女。

       一个实例可能是简单的。例如,当你用客户的统计信息分析客户的贷款风险时,一个实例就是一个客户。它与客户表中的一行相当。

       一个实例也可能是复杂的。例如,当你基于客户的历史购买信息分析购买行为时,一个实例就是一个带有购买商品列表的客户。这种实例叫做嵌套实例。一个嵌套实例至少包括一个表。下图显示了几个客户以及历史购买信息的嵌套实例。

      

 

OLE DB for Data Mining,数据挖掘算法提供了消费实例。如果一个实例是嵌套实例,数据挖掘算法要求输入带等级行集格式的实例

 

注意:在OLE DB for Data Mining中,嵌套实例概念的提出是极其重要的。它能处理复杂的一对多的关系。它为模型建立增加了许多功能。如果没有嵌套实例的概念,你就得在数据转换阶段,将要嵌套的实例作为实例的属性。这是一个具有挑战性的工作。因为大部分关系型数据库对表中列的数量有限制,如果你的实例中有很多不同的产品,很难转换整个购买表。

 

实例键(The Case Key)

       实例键是实例的属性,是实例的唯一标志符。一个实例键通常是关系表的主键。有时候实例键是组合实例键。例如,姓和名一起被作为实例键。

 

嵌套键(The Nested Key)

       尽管实例键可以认为关系中的主键,但嵌套键并不等同于关系中的外键。实例键仅仅是标志符,不包括任何模式,然而嵌套键是嵌套实例的一个重要属性。嵌套实例的其他属性都是用来描述嵌套键的。例如,设计一个模型描述客户购买行为的模式,嵌套键是产品。数量描述产品的购买。嵌套键并不是一个标志符,它包括了模式的有用信息。例如,我们用产品这个嵌套键作为输入,可以预测实例的性别属性。

实例表和嵌套表(Case Tables and Nested Tables

       实例表包含实例的直属信息。嵌套表包含实例的嵌套信息。嵌套表通常是事务表,比如客户的历史购买记录。嵌套表通过实例键与实例表连接。为了连接实例表与嵌套表,形成了分等级的行集,因此OLE DB定义了操作符shape。以后的章节将介绍操作符shape的语法。

 

       提示:对于熟悉数据仓库和olap的人来说,实例表通常是维表,而嵌套表是事实表。

 

标量列和表列(Scalar Columns and Table Columns

       挖掘模型中的列与关系表中的列类似;统计术语中也叫做变量或者属性。按照用法挖掘模型中的列有4种:键列,输入列,预测列,输入和预测列。预测列是挖掘模型的目的。大部分挖掘模型使用输入列来预测输出列。一些算法中,比如聚类,不需要有预测列。在这种情况下,挖掘模型可能仅仅包含输入列。

有两种列结构:标量和表。大部分列都是标量列。一条记录中每个标量列是单一的值。例如,性别和年龄都是标量列。表列是特殊的列。一个表列嵌入了一个表。例如,购买列就是一个表列,它存储了每个客户的购买信息。它包括表中的两列:产品和数量。OLE DB 有个概念是分等级的行集。行集的直属部分是标量列,分等级的部分是表列。

数据挖掘模型

一个数据挖掘模型或者说挖掘模型,可以看作关系型的表。它包括关键列,输入列和预测列。每个模型都与相应的挖掘算法相关联。训练挖掘模型就是用指定的带有合适参数的挖掘算法,发现训练数据集中的模式。训练后,被发现的模式存储到挖掘模型中。就像关系型表包含一系列的记录,一个数据挖掘模型中包含一系列的模式。

 

模型创建

模型创建就是创建一个空的挖掘模型,这个概念与创建表的含义相似。

模型训练

模型训练也叫模型处理. 它调用数据挖掘算法发掘训练数据集中的知识。训练后,模式被存储到挖掘模型中。

模型预测

模型预测是用已经训练过的挖掘模型的模式匹配新数据集,并且预测每个实例可预测列的值。

 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值