数据挖掘基础之数据库

最新推荐文章于 2023-06-12 07:17:26 发布

miner_zhu

最新推荐文章于 2023-06-12 07:17:26 发布

阅读量5.9k

点赞数 2

分类专栏：数据挖掘文章标签：数据挖掘数据库

数据挖掘专栏收录该内容

11 篇文章 2 订阅

订阅专栏

最近出现的一种数据库结构是数据仓库（1.3.2 小节）。这是一种多个异种数据源在单个站点以统一的模式组织的存储，以支持管理决策。数据仓库

技术包括数据清理、数据集成和联机分析处理（OLAP）。OLAP 是一种分析技术，具有汇总、合并和聚集功能，以及从不同的角度观察信息的能力。尽管 OLAP 工具支持多维分析和决策，对于深层次的分析，如数据分类、聚类和数据随时间变化的特征，仍然需要其它分析工具。

许多人把数据挖掘视为另一个常用的术语“数据库中知识发现”或 KDD 的同义词。而另一些人只是把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程如图 1.4 所示，由以下步骤组成：

1. 数据清理（消除噪音或不一致数据）

2. 数据集成（多种数据源可以组合在一起）1

3. 数据选择（从数据库中提取与分析任务相关的数据）

4. 数据变换（数据变换或统一成适合挖掘的形式；如，通过汇总或聚集操作）

5. 数据挖掘（基本步骤，使用智能方法提取数据模式）

6. 模式评估（根据某种兴趣度度量，识别提供知识的真正有趣的模式；1.5 节）

7. 知识表示（使用可视化和知识表示技术，向用户提供挖掘的知识）。

典型的数据挖掘系统具有以下主要成分：

1 数据库、数据仓库、或其它信息库：这是一个或一组数据库、数据仓库、展开的表、或其它类型的信息库。可以在数据上进行数据清理和集成。

2 数据库或数据仓库服务器：根据用户的数据挖掘请求，数据库或数据仓库服务器负责提取相关数据。

3知识库：这是领域知识，用于指导搜索，或评估结果模式的兴趣度。这种知识可能包括概念分层，用于将属性或属性值组织成不同的抽象层。用户确信方面的知识也可以包含在内。可以使用这种知识，根据非期望性评估模式的兴趣度。领域知识的其它例子有兴趣度限制或阈值和元数据（例如，描述来自多个异种数据源的数据）。

4数据挖掘引擎：这是数据挖掘系统基本的部分，由一组功能模块组成，用于特征、关联、分类、聚类分析、演变和偏差分析。

5模式评估模块：通常，该部分使用兴趣度度量（1.5 节），并与挖掘模块交互，以便将搜索聚焦在有趣的模式上。它可能使用兴趣度阈值过滤发现的模式。模式评估模块也可以与挖掘模块集成在一起，这依赖于所用的数据挖掘方法的实现。对于有效的数据挖掘，建议尽可能地将模式评估推进到挖掘过程之中，以便将搜索限制在有兴趣的模式上。

6图形用户界面：该模块在用户和挖掘系统之间通讯，允许用户与系统交互，指定数据挖掘查询或任务，提供信息、帮助搜索聚焦，根据数据挖掘的中间结果进行探索式数据挖掘。此外，该成分还允许用户浏览数据库和数据仓库模式或数据结构，评估挖掘的模式，以不同的形式对模式可视化。

关系数据库

数据库系统，也称数据库管理系统（DBMS），由一组内部相关的数据，称作数据库，和一组管理和存取数据的软件程序组成。软件程序涉及如下机制：数据库结构定义，数据存储，并行、共享或分布的数据访问，面对系统瘫痪或未授权的访问，确保数据的一致性和安全性。

关系数据库是表的集合，每个表都赋予一个唯一的名字。每个表包含一组属性（列或字段），

并通常存放大量元组（记录或行）。关系中的每个元组代表一个被唯一关键字标识的对象，并被一

组属性值描述。语义数据模型，如实体-联系（ER）数据模型，将数据库作为一组实体和它们之间的联系进行建模。通常为关系数据库构造 ER 模型。

数据仓库

数据仓库是一个从多个数据源收集的信息存储，存放在一个一致的模式下，并通常驻留在单个站点。数据仓库通过数据清理、数据变换、

数据集成、数据装入和定期数据刷新构造。

通常，数据仓库用多维数据库结构建模。其中，每个维对应于模式中一个或一组属性，每个单元存放聚集度量，如 count 或 sales_amount。数据仓库的实际物理结构可以是关系数据存储或多维数据方。它提供数据的多维视图，并允许快速访问预计算的和汇总的数据。

数据仓库收集了整个组织的主题信息，因此，它是企业范围的。另一方面，数据集市是数据仓库的一个部门子集。它聚焦在选定的主题上，是部门范围的。

通过提供多维数据视图和汇总数据的预计算，数据仓库非常适合联机分析处理（OLAP）。OLAP操作使用数据的领域背景知识，允许在不同的抽象层提供数据。这些操作适合不同的用户。OLAP操作的例子包括下钻和上卷，它们允许用户在不同的汇总级别观察数据，如图 1.8(b)所示。例如，可以对按季度汇总的销售数据下钻，观察按月汇总的数据。类似地，可以对按城市汇总的销售数据上卷，观察按国家汇总的数据。

事务数据库

一般地，事务数据库由一个文件组成，其中每个记录代表一个事务。通常，一个事务包含一个唯一的事务标识号(trans_ID)，和一个组成事务的项的列表（如，在商店购买的商品）。事务数据库可能有一些与之相关联的附加表，包含关于销售的其它信息，如事务的日期、顾客的 ID 号、销售者的 ID 号、销售分店，等等。

高级数据库系统和高级数据库应用

关系数据库系统广泛地用于商务应用。随着数据库技术的发展，各种先进的数据库系统已经出现并在开发中，以适应新的数据库应用需要。

新的数据库应用包括处理空间数据（如地图）、工程设计数据（如建筑设计、系统部件、集成

电路）、超文本和多媒体数据（包括文本、图象和声音数据）、时间相关的数据（如历史数据或股

票交换数据）和万维网（Internet 使得巨大的、广泛分布的信息存储可以利用）。这些应用需要有效的数据结构和可规模化的方法，处理复杂的对象结构、变长记录、半结构化或无结构的数据，文本和多媒体数据，以及具有复杂结构和动态变化的数据库模式。

响应这些需求，开发了先进的数据库系统和面向特殊应用的数据库系统。这些包括面向对象和对象-关系数据库系统、空间数据库系统、时间和时间序列数据库系统、异种和遗产数据库系统、基于万维网的全球信息系统。

虽然这样的数据库或信息存储需要复杂的机制，以便有效地存储、提取和更新大量复杂的数据，它们也为数据挖掘提供了肥沃的土壤，提出了挑战性的研究和实现问题。本节，我们将介绍上面列举的每种高级数据库系统。

面向对象数据库

向对象数据库基于面向对象程序设计范例。用一般术语，每个实体被看作一个对象。对于AllElectronics 例子，对象可以是每个雇员、顾客、商品。涉及一个对象的数据和代码封装在一个单元中。每个对象关联：

1 一个变量集，它描述数据。这对应于实体-联系和关系模型的属性。

2 一个消息集，对象可以使用它们与其它对象，或与数据库系统的其它部分通讯。

3 一个方法集，其中每个方法存放实现一个消息的代码。一旦收到消息，方法就返回一个响应值。例如，消息 get_photo(employee)的方法将提取并返回给定雇员对象的照片。

共享公共特性集的对象可以归入一个对象类。每个对象都是其对象类的实例。对象类可以组成/子类层次结构，使得每个类代表该类对象共有的特性。例如，类 employee 可以包含变量 name, address 和birthdate。假定类 sales_person 是 employee 的子类。一个 sales_person 对象将继承属于其超类 employee 的所有变量。此外，它还具有作为一个销售员特有的所有变量（如，commission）。这种类继承特性有利于信息共享。

对象-关系数据库

对象-关系数据库基于对象-关系数据模型构造。该模型通过提供处理复杂对象的丰富数据类型和对象定位，扩充关系模型。此外，它还包含关系查询语言的特殊构造，以便管理增加的数据类型。

通过增加处理复杂数据类型、类层次结构和如上所述的对象继承，对象-关系模型扩充了基本关系模型。对象-关系数据库在工业和应用正日趋流行。

在面向对象和对象-关系系统中的数据挖掘具有某些类似性。与关系数据挖掘相比，需要开发新的技术，处理复杂对象结构、复杂数据类型、类和子类层次结构、特性继承以及方法和过程。

时间数据库和时间序列数据库

时间数据库和时间序列数据库都存放与时间有关的数据。时间数据库通常存放包含时间相关属性的数据。这些属性可能涉及若干时间标签，每个都具有不同的语义。时间序列数据库存放随时间变化的值序列，如，收集的股票交易数据。

数据挖掘技术可以用来发现数据库中对象演变特征或对象变化趋势。这些信息对于决策和规划

是有用的。例如，银行数据的挖掘可能有助于根据顾客的流量安排银行出纳员。可以挖掘股票交易

数据，发现可能帮助你制订投资策略的趋势（例如，何时是购买 AllElectronics 的股票的最佳时机？）。通常，这种分析需要定义时间的多粒度。例如，时间可以按财政年、学年或日历年分解。年可以进一步分解成季度或月。

文本数据库和多媒体数据库

文本数据库是包含对象文字描述的数据库。通常，这种词描述不是简单的关键词，而是长句子

或短文，如产品介绍、错误或故障报告、警告信息、汇总报告、笔记或其它文档。文本数据库可能

是高度非规格化的（如，万维网上的网页）。有些文本数据库可能是半结构化的（如 email 消息和一些 HTML/XML 网页），而其它的可能是良结构化的（如图书馆数据库）。通常，具有很好结构的文本数据库可以使用关系数据库系统实现。

“文本数据库上的数据挖掘可以发现什么？”说到底，可以发现对象类的一般描述，以及关键词或内容的关联和文本对象的聚类行为。为做到这一点，需要将标准的数据挖掘技术与信息提取技术和文本数据特有的层次构造（如字典和辞典），以及面向学科的（如化学、医学、法律或经济）术语分类系统集成在一起。

多媒体数据库存放图象、音频和视频数据。它们用于基于图内容的提取、声音传递、录像点播、万维网和识别口语命令的基于语音的用户界面等方面。多媒体数据库必须支持大对象，因为象视频这样的数据对象可能需要数十亿字节的存储。还需要特殊的存储和检索技术，因为视频和音频数据需要以稳定的、预先确定的速率实时检索，防止图象或声音间断和系统缓冲区溢出。这种数据称为连续媒体数据。

对于多媒体数据库挖掘，需要将存储和检索技术与标准的数据挖掘方法集成在一起。有前途的方法包括构造多媒体数据方、多媒体数据的多特征提取和基于相似的模式匹配。

异种数据库和遗产数据库

异种数据库由一组互连的、自治的成员数据库组成。这些成员相互通讯，以便交换信息和回答查询。一个成员数据库中的对象可能与其它成员数据库中的对象很不相同，使得很难将它们的语义吸收进一个整体的异种数据库中。

许多企业需要遗产数据库，作为信息技术长时间开发（包括使用不同的硬件和操作系统）的结果。遗产数据库是一组异种数据库，它将不同的数据系统组合在一起。这些数据系统如关系或对象 -关系数据库、层次数据库、网状数据库、电子表格、多媒体数据库或文件系统。遗产数据库中的异种数据库可以通过网内或网间计算机网络连接。

这种数据库的信息交换是困难的，因为需要考虑发散的语义，制定从一种表示到另一种表示的精确转换规则。例如，考虑不同学校之间学生学业情况数据交换问题。每个学校可能有自己的计算机系统和课程与评分体系。一所大学可能采用学季系统（每学期三个月——译注），开三门数据库课程，并按由 A+到 F 评定成绩；而另一所可能采用学期系统，开两门数据库课程，并按由 1 到 10评定成绩。很难制定这两所大学的课程-成绩转换精确的规则，使得信息交换很困难。通过将给定的数据转换到较高的、更一般的概念层（对于学生成绩，如不及格、良好或优秀），数据挖掘技术可以对此问题提供有趣的解，使得数据交换可以更容易地进行。

万维网

万维网和与之关联的分布信息服务（如，美国在线，Yahoo!, Alta Vista, Prodigy）提供了丰富的、世界范围的联机信息服务；这里，数据对象被链接在一起，便于交互访问。用户通过链接，从一个对象到另一个，寻找有趣的信息。这种系统对数据挖掘提供了大量机会和挑战。例如，理解用户的访问模式不仅能够帮助改进系统设计（通过提供高度相关的对象间的有效访问），而且还可以引导

更好的市场决策（例如，通过在频繁访问的文档上布置广告，或提供更好的顾客/用户分类和行为分析）。在这种分布式信息环境下，捕获用户访问模式称作挖掘路径遍历模式。

尽管网页看上去好看并且信息丰富，但它们实际上是非结构化的并且缺乏预定义的模式、类型和格式。这样，对于系统地进行信息提取和数据挖掘，计算机很难理解各种网页的语义并把它们以有组织的形式结构化。提供基于关键字的搜索服务，而不理解特定网页的上下文，只能给用户提供有限的帮助。例如，基于单个关键字的网搜索可能返回数以百计的指针，指向包含该关键字的网页，而其中大部分与用户期望的查找无关。数据挖掘可以提供比网搜索服务更多的帮助吗？数据挖掘能够帮助我们学习网上信息的一般分布、网页特征和不同网页之间的关联吗？能够帮助我们找到特定主题的权威网页吗？这些问题对高级的数据挖掘提出了新的挑战。