OLE DB for Data Mining中的基本概念

最新推荐文章于 2020-07-28 17:50:25 发布

yangwl

最新推荐文章于 2020-07-28 17:50:25 发布

阅读量1.1k

点赞数

分类专栏： DataMining with SqlServer 文章标签：数据挖掘算法 nested 产品数据仓库存储

本文链接：https://blog.csdn.net/yangwl/article/details/1808437

版权

DataMining with SqlServer 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

OLE DB for Data Mining 为一系列的数据挖掘对象定义了通用的概念。下面分别来介绍这些概念。

实例(Case)

数据挖掘是用来分析实例的—一个实例是一个基本的信息实体。它包括一系列的属性，比如性别和年龄。属性也可以叫做统计学中的变量。一个属性可能有一系列的值，称为状态。例如，性别属性有2种状态：男和女。

一个实例可能是简单的。例如，当你用客户的统计信息分析客户的贷款风险时，一个实例就是一个客户。它与客户表中的一行相当。

一个实例也可能是复杂的。例如，当你基于客户的历史购买信息分析购买行为时，一个实例就是一个带有购买商品列表的客户。这种实例叫做嵌套实例。一个嵌套实例至少包括一个表。下图显示了几个客户以及历史购买信息的嵌套实例。

在OLE DB for Data Mining中,数据挖掘算法提供了消费实例。如果一个实例是嵌套实例，数据挖掘算法要求输入带等级行集格式的实例

注意：在OLE DB for Data Mining中，嵌套实例概念的提出是极其重要的。它能处理复杂的一对多的关系。它为模型建立增加了许多功能。如果没有嵌套实例的概念，你就得在数据转换阶段，将要嵌套的实例作为实例的属性。这是一个具有挑战性的工作。因为大部分关系型数据库对表中列的数量有限制，如果你的实例中有很多不同的产品，很难转换整个购买表。

实例键(The Case Key)

实例键是实例的属性，是实例的唯一标志符。一个实例键通常是关系表的主键。有时候实例键是组合实例键。例如，姓和名一起被作为实例键。

嵌套键(The Nested Key)

尽管实例键可以认为关系中的主键，但嵌套键并不等同于关系中的外键。实例键仅仅是标志符，不包括任何模式，然而嵌套键是嵌套实例的一个重要属性。嵌套实例的其他属性都是用来描述嵌套键的。例如，设计一个模型描述客户购买行为的模式，嵌套键是产品。数量描述产品的购买。嵌套键并不是一个标志符，它包括了模式的有用信息。例如，我们用产品这个嵌套键作为输入，可以预测实例的性别属性。

实例表和嵌套表（Case Tables and Nested Tables）

实例表包含实例的直属信息。嵌套表包含实例的嵌套信息。嵌套表通常是事务表，比如客户的历史购买记录。嵌套表通过实例键与实例表连接。为了连接实例表与嵌套表，形成了分等级的行集，因此OLE DB定义了操作符shape。以后的章节将介绍操作符shape的语法。

提示：对于熟悉数据仓库和olap的人来说，实例表通常是维表，而嵌套表是事实表。

标量列和表列（Scalar Columns and Table Columns）

挖掘模型中的列与关系表中的列类似；统计术语中也叫做变量或者属性。按照用法挖掘模型中的列有4种：键列，输入列，预测列，输入和预测列。预测列是挖掘模型的目的。大部分挖掘模型使用输入列来预测输出列。一些算法中，比如聚类，不需要有预测列。在这种情况下，挖掘模型可能仅仅包含输入列。

有两种列结构：标量和表。大部分列都是标量列。一条记录中每个标量列是单一的值。例如，性别和年龄都是标量列。表列是特殊的列。一个表列嵌入了一个表。例如，购买列就是一个表列，它存储了每个客户的购买信息。它包括表中的两列：产品和数量。OLE DB 有个概念是分等级的行集。行集的直属部分是标量列，分等级的部分是表列。

数据挖掘模型

一个数据挖掘模型或者说挖掘模型，可以看作关系型的表。它包括关键列，输入列和预测列。每个模型都与相应的挖掘算法相关联。训练挖掘模型就是用指定的带有合适参数的挖掘算法，发现训练数据集中的模式。训练后，被发现的模式存储到挖掘模型中。就像关系型表包含一系列的记录，一个数据挖掘模型中包含一系列的模式。

模型创建

模型创建就是创建一个空的挖掘模型，这个概念与创建表的含义相似。

模型训练

模型训练也叫模型处理. 它调用数据挖掘算法发掘训练数据集中的知识。训练后，模式被存储到挖掘模型中。

模型预测

模型预测是用已经训练过的挖掘模型的模式匹配新数据集，并且预测每个实例可预测列的值。

yangwl

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
OLE DB for Data Mining中的基本概念

OLE DB for Data Mining 为一系列的数据挖掘对象定义了通用的概念。下面分别来介绍这些概念。实例(Case)数据挖掘是用来分析实例的—一个实例是一个基本的信息实体。它包括一系列的属性，比如性别和年龄。属性也可以叫做统计学中的变量。一个属性可能有一系列的值，称为状态。例如，性别属性有2种状态：男和女。一个实例可能是简单的。例如，当你用客户的统计信息分析客户
复制链接

扫一扫