OLE DB for Data Mining中的基本概念

原创 2007年09月30日 21:45:00

OLE DB for Data Mining 为一系列的数据挖掘对象定义了通用的概念。下面分别来介绍这些概念。

实例(Case)

数据挖掘是用来分析实例的一个实例是一个基本的信息实体。它包括一系列的属性,比如性别和年龄。属性也可以叫做统计学中的变量。一个属性可能有一系列的值,称为状态。例如,性别属性有2种状态:男和女。

       一个实例可能是简单的。例如,当你用客户的统计信息分析客户的贷款风险时,一个实例就是一个客户。它与客户表中的一行相当。

       一个实例也可能是复杂的。例如,当你基于客户的历史购买信息分析购买行为时,一个实例就是一个带有购买商品列表的客户。这种实例叫做嵌套实例。一个嵌套实例至少包括一个表。下图显示了几个客户以及历史购买信息的嵌套实例。

      

 

OLE DB for Data Mining,数据挖掘算法提供了消费实例。如果一个实例是嵌套实例,数据挖掘算法要求输入带等级行集格式的实例

 

注意:在OLE DB for Data Mining中,嵌套实例概念的提出是极其重要的。它能处理复杂的一对多的关系。它为模型建立增加了许多功能。如果没有嵌套实例的概念,你就得在数据转换阶段,将要嵌套的实例作为实例的属性。这是一个具有挑战性的工作。因为大部分关系型数据库对表中列的数量有限制,如果你的实例中有很多不同的产品,很难转换整个购买表。

 

实例键(The Case Key)

       实例键是实例的属性,是实例的唯一标志符。一个实例键通常是关系表的主键。有时候实例键是组合实例键。例如,姓和名一起被作为实例键。

 

嵌套键(The Nested Key)

       尽管实例键可以认为关系中的主键,但嵌套键并不等同于关系中的外键。实例键仅仅是标志符,不包括任何模式,然而嵌套键是嵌套实例的一个重要属性。嵌套实例的其他属性都是用来描述嵌套键的。例如,设计一个模型描述客户购买行为的模式,嵌套键是产品。数量描述产品的购买。嵌套键并不是一个标志符,它包括了模式的有用信息。例如,我们用产品这个嵌套键作为输入,可以预测实例的性别属性。

实例表和嵌套表(Case Tables and Nested Tables

       实例表包含实例的直属信息。嵌套表包含实例的嵌套信息。嵌套表通常是事务表,比如客户的历史购买记录。嵌套表通过实例键与实例表连接。为了连接实例表与嵌套表,形成了分等级的行集,因此OLE DB定义了操作符shape。以后的章节将介绍操作符shape的语法。

 

       提示:对于熟悉数据仓库和olap的人来说,实例表通常是维表,而嵌套表是事实表。

 

标量列和表列(Scalar Columns and Table Columns

       挖掘模型中的列与关系表中的列类似;统计术语中也叫做变量或者属性。按照用法挖掘模型中的列有4种:键列,输入列,预测列,输入和预测列。预测列是挖掘模型的目的。大部分挖掘模型使用输入列来预测输出列。一些算法中,比如聚类,不需要有预测列。在这种情况下,挖掘模型可能仅仅包含输入列。

有两种列结构:标量和表。大部分列都是标量列。一条记录中每个标量列是单一的值。例如,性别和年龄都是标量列。表列是特殊的列。一个表列嵌入了一个表。例如,购买列就是一个表列,它存储了每个客户的购买信息。它包括表中的两列:产品和数量。OLE DB 有个概念是分等级的行集。行集的直属部分是标量列,分等级的部分是表列。

数据挖掘模型

一个数据挖掘模型或者说挖掘模型,可以看作关系型的表。它包括关键列,输入列和预测列。每个模型都与相应的挖掘算法相关联。训练挖掘模型就是用指定的带有合适参数的挖掘算法,发现训练数据集中的模式。训练后,被发现的模式存储到挖掘模型中。就像关系型表包含一系列的记录,一个数据挖掘模型中包含一系列的模式。

 

模型创建

模型创建就是创建一个空的挖掘模型,这个概念与创建表的含义相似。

模型训练

模型训练也叫模型处理. 它调用数据挖掘算法发掘训练数据集中的知识。训练后,模式被存储到挖掘模型中。

模型预测

模型预测是用已经训练过的挖掘模型的模式匹配新数据集,并且预测每个实例可预测列的值。

 
版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

Datasets for Data Mining

Data Visualization and Exploration Sites Google Public Data, with dynamic visualization and exp...

7 Steps for Learning Data Mining and Data Science

How to learn data mining and data science? I outline seven steps and point you to resources for beco...

Data Mining Winter 2010 Resources (from last year's course website):

TheFind Shopping Search Engine Dataset  Craigslist Data (data will be uploaded soon!)  All...

《Data Mining》学习——度量数据的相似性和相异性

1.标称属性的邻近性度量 设一个标称属性的状态数目是M。这些状态可以用字母,或者一组数字来表示,并且这些数字只代表数据标号,并没有特定的顺序。 如何计算标称属性所刻画的对象之间额相异性? 两个对象...

Networks for Data Mining

  • 2014-10-07 21:45
  • 314KB
  • 下载

pyhon for Data Mining

  • 2014-06-22 18:35
  • 16.87MB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)