OLE DB for Data Mining中的基本概念

原创 2007年09月30日 21:45:00

OLE DB for Data Mining 为一系列的数据挖掘对象定义了通用的概念。下面分别来介绍这些概念。

实例(Case)

数据挖掘是用来分析实例的一个实例是一个基本的信息实体。它包括一系列的属性,比如性别和年龄。属性也可以叫做统计学中的变量。一个属性可能有一系列的值,称为状态。例如,性别属性有2种状态:男和女。

       一个实例可能是简单的。例如,当你用客户的统计信息分析客户的贷款风险时,一个实例就是一个客户。它与客户表中的一行相当。

       一个实例也可能是复杂的。例如,当你基于客户的历史购买信息分析购买行为时,一个实例就是一个带有购买商品列表的客户。这种实例叫做嵌套实例。一个嵌套实例至少包括一个表。下图显示了几个客户以及历史购买信息的嵌套实例。

      

 

OLE DB for Data Mining,数据挖掘算法提供了消费实例。如果一个实例是嵌套实例,数据挖掘算法要求输入带等级行集格式的实例

 

注意:在OLE DB for Data Mining中,嵌套实例概念的提出是极其重要的。它能处理复杂的一对多的关系。它为模型建立增加了许多功能。如果没有嵌套实例的概念,你就得在数据转换阶段,将要嵌套的实例作为实例的属性。这是一个具有挑战性的工作。因为大部分关系型数据库对表中列的数量有限制,如果你的实例中有很多不同的产品,很难转换整个购买表。

 

实例键(The Case Key)

       实例键是实例的属性,是实例的唯一标志符。一个实例键通常是关系表的主键。有时候实例键是组合实例键。例如,姓和名一起被作为实例键。

 

嵌套键(The Nested Key)

       尽管实例键可以认为关系中的主键,但嵌套键并不等同于关系中的外键。实例键仅仅是标志符,不包括任何模式,然而嵌套键是嵌套实例的一个重要属性。嵌套实例的其他属性都是用来描述嵌套键的。例如,设计一个模型描述客户购买行为的模式,嵌套键是产品。数量描述产品的购买。嵌套键并不是一个标志符,它包括了模式的有用信息。例如,我们用产品这个嵌套键作为输入,可以预测实例的性别属性。

实例表和嵌套表(Case Tables and Nested Tables

       实例表包含实例的直属信息。嵌套表包含实例的嵌套信息。嵌套表通常是事务表,比如客户的历史购买记录。嵌套表通过实例键与实例表连接。为了连接实例表与嵌套表,形成了分等级的行集,因此OLE DB定义了操作符shape。以后的章节将介绍操作符shape的语法。

 

       提示:对于熟悉数据仓库和olap的人来说,实例表通常是维表,而嵌套表是事实表。

 

标量列和表列(Scalar Columns and Table Columns

       挖掘模型中的列与关系表中的列类似;统计术语中也叫做变量或者属性。按照用法挖掘模型中的列有4种:键列,输入列,预测列,输入和预测列。预测列是挖掘模型的目的。大部分挖掘模型使用输入列来预测输出列。一些算法中,比如聚类,不需要有预测列。在这种情况下,挖掘模型可能仅仅包含输入列。

有两种列结构:标量和表。大部分列都是标量列。一条记录中每个标量列是单一的值。例如,性别和年龄都是标量列。表列是特殊的列。一个表列嵌入了一个表。例如,购买列就是一个表列,它存储了每个客户的购买信息。它包括表中的两列:产品和数量。OLE DB 有个概念是分等级的行集。行集的直属部分是标量列,分等级的部分是表列。

数据挖掘模型

一个数据挖掘模型或者说挖掘模型,可以看作关系型的表。它包括关键列,输入列和预测列。每个模型都与相应的挖掘算法相关联。训练挖掘模型就是用指定的带有合适参数的挖掘算法,发现训练数据集中的模式。训练后,被发现的模式存储到挖掘模型中。就像关系型表包含一系列的记录,一个数据挖掘模型中包含一系列的模式。

 

模型创建

模型创建就是创建一个空的挖掘模型,这个概念与创建表的含义相似。

模型训练

模型训练也叫模型处理. 它调用数据挖掘算法发掘训练数据集中的知识。训练后,模式被存储到挖掘模型中。

模型预测

模型预测是用已经训练过的挖掘模型的模式匹配新数据集,并且预测每个实例可预测列的值。

 

数据库连接技术之OLE DB

之前的博客介绍了ODBC和JDBC,这次简单的介绍一下OLE DB。ODBC的总结不知道是没贴到博客上还是不在这个博客上,我再找找,没有的话我再补充到时候。好了,开始吧。 回顾     之前呢...
  • zhuojiajin
  • zhuojiajin
  • 2014年07月25日 21:38
  • 1911

SSIS OLE DB 命令 使用方法

OLE DB Commond任务接受输入流中的行数据并执行一段SQL语句或自定义存储过程。这个转换和Execute Sql任务容易混淆,但是它非常类似于在ADO连接中循环接收一个结果集中的数据,创建,...
  • qbook
  • qbook
  • 2014年11月25日 16:54
  • 2724

Machine Learning and Data Mining——2. 机器学习学习路线与资料

机器学习研究的是计算机怎样模拟人类的学习行为,以获取新的知识或技能,并重新组织已有的知识结构使之不断改善自身。简单一点说,就是计算机从数据中学习出规律和模式,以应用在新数据上做预测的任务。本文为转载文...
  • u010757264
  • u010757264
  • 2016年03月05日 10:24
  • 1074

SQL那些事儿(十一)--ODBC,OLE-DB,ADO.NET区别

一、ODBC ODBC的由来 1992年Microsoft和Sybase、Digital共同制定了ODBC标准接口,以单一的ODBC API来存取各种不同的数据库。随后ODBC便获得了许多数据库厂...
  • xcymorningsun
  • xcymorningsun
  • 2016年11月08日 16:32
  • 1176

DataMining学习2_数据挖掘十大经典算法

数据挖掘十大经典算法  一、 C4.5  C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法.   C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了...
  • wang_zhenwei
  • wang_zhenwei
  • 2016年09月14日 10:26
  • 1407

【强烈推荐】:关于系统学习数据挖掘(Data Mining)的一些建议!!

微信公众号 关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 关于数据挖掘 提到收据挖掘(Data Mining...
  • Mbx8X9u
  • Mbx8X9u
  • 2017年12月03日 00:00
  • 113

MLAPP学习笔记-Data Mining和Machine Learning的区别及延伸

MLAPP学习笔记-Data Mining和Machine Learning的区别及延伸 一、写在前面   从上学开始,都习惯把笔记记录在纸张上,大多数是觉得可以偶尔练练字什么的。...
  • zwl_123
  • zwl_123
  • 2016年07月25日 14:49
  • 1604

x86,x64系统下安装OleDB驱动

转自:http://tonzi.blog.163.com/blog/static/4199583620144585819532/ Office 2007 x32,Win7 x64 安装Ole...
  • fengxing11
  • fengxing11
  • 2016年10月20日 15:27
  • 2339

数据挖掘开源软件:WEKA基础操作

数据挖掘开源软件:WEKA基础教程 本文档部分来自于网络,随着自己的深入学习,讲不断的修订和完善。 第一节   Weka简介: Weka是由新西兰怀卡托大学开发的智能分析系统(Waikato E...
  • u011067360
  • u011067360
  • 2014年03月09日 15:19
  • 3704

以什么姿势进入DataMining会少走弯路?

大数据时代早已经来临,很多年轻人急着闹着想要跻身于大数据行业,不免也有一些不得志的中年人。自然而然的会报各种培训班,理所当然认为付出总有一天会赚回来的。但却走了不少弯路,花了不少钱。倘若在我写的文章中...
  • jdbc
  • jdbc
  • 2016年05月09日 12:02
  • 1634
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:OLE DB for Data Mining中的基本概念
举报原因:
原因补充:

(最多只允许输入30个字)