第1章引论

lyh_shzu

已于 2023-02-27 13:45:55 修改

阅读量168

点赞数

分类专栏：数据挖掘概念与技术文章标签：数据挖掘

于 2020-08-13 19:59:49 首次发布

本文链接：https://blog.csdn.net/lyh_shzu/article/details/107761469

版权

数据挖掘概念与技术专栏收录该内容

2 篇文章 0 订阅

订阅专栏

第1章是对数据挖掘这门课程的总括，需要我们了解数据挖掘的概念以及数据挖掘能做什么。本章涉及的主要内容导图如下：

下面对涉及的每个知识点进行说明：

1.1 为什么进行数据挖掘

万事万物的产生都有其必然。计算机产生后，计算机的软硬件得到了快速的发展，尤其是数据库技术和存储技术的进步，使得一些企业积累了海量数据。企业想要从这些海量的数据中提取有价值的信息来支持决策，然而，由于数据量太大，传统的数据分析工具和技术已经无能为力。因此，如何从大量数据中获得有价值的信息，逾越数据与信息之间的鸿沟，成为很多企业面临的巨大挑战。要解决这样的挑战，就需要开发新的方法，这就导致了数据挖掘的诞生。（需要是发明之母。——柏拉图）

下图很好的表明了本小节的主题：

1.2 什么是数据挖掘

数据挖掘（DM，Data Mining）又称从数据中发现知识（KDD，Knowledge Discovery in Database）。知识发现包括了7个步骤：数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示。虽然，数据挖掘被看成了知识发现过程中的一个基本步骤，但是在产业界、媒体和研究界，数据挖掘通常表示整个知识发现过程。因此，本书采用了广义的数据挖掘功能的观点给出了数据挖掘的定义，即数据挖掘是从大量数据中挖掘有趣的模式或知识的过程。

1989年8月召开的第11届国际人工智能联合会议的专题讨论会上首次出现了知识发现（KDD）这个术语。

1.3 可以挖掘什么类型的数据

数据挖掘可以用于任何类型的数据，如数据的最基本形式数据库数据、数据仓库数据和事务数据，其他类型的数据如时间相关或序列数据、数据流、图或网络数据、空间数据、文本数据、多媒体数据等。

（1）数据库数据

数据库中的数据均存储在表中，表之间可以通过主外键进行关联，数据可以通过数据库查询语句进行访问。

数据库是数据挖掘最常见、最丰富的信息源。当数据挖掘用于数据库时，可以进一步搜索趋势或数据模式。如数据挖掘系统可以分析顾客数据，根据顾客的收入、年龄和以前的信用信息预测新顾客的信用风险。数据挖掘系统也可以检测偏差，如与以前的年份相比，哪些商品的销售出人预料。总结如下图所示：

（2）数据仓库数据

数据仓库中的数据围绕主题（如顾客、商品、供应商和活动）组织。数据存储从历史的角度提供信息，并且通常是汇总的。数据仓库用数据立方体的多维数据结构构建。（数据仓库与数据库的区别，以及数据立方体将在第3章详细讲解。）

当数据挖掘作用于数据仓库时，可以在各种粒度进行多维组合探查，发现代表知识的有趣模式。总结如下图所示：

（3）事务数据

事务数据库的每个记录代表一个事务，如顾客的一次购物、一个航班订票或一个用户的网页点击。通常，一个事务包含一个唯一的事务标识号，以及一个组成事务的项的列表（如，交易中购买的商品）。

当数据挖掘作用于事务数据库时，可以进行事务数据的分析，通过挖掘频繁项集发现频繁地一起销售的商品集合。总结如下图所示：

（4）其他类型的数据

其他类型的数据如时间相关或序列数据、数据流、图或网络数据、空间数据、文本数据、多媒体数据和万维网数据等。当数据挖掘作用于这些类型的数据时，可以从这些类型的数据中挖掘各种知识。如

对于时间数据，可以挖掘银行数据的变化趋势，帮助银行根据顾客流量安排出纳员；可以挖掘股票交易数据，发现趋势，规划投资策略。
对于计算机网络数据，可以根据信息流的异常进行入侵检测。
对于空间数据，可以根据城市离主要公路的距离描述都是贫困率的变化趋势的模式。
对于文本数据，可以挖掘过去10年“数据挖掘”方面的文献，了解该领域热点课题的演变；可以挖掘顾客对产品发表的评论，评估顾客的意见，了解产品被市场接收的程度。
对于多媒体数据，可以挖掘图像，识别对象，并通过指派语义标号或标签对它们分类。
对于视频数据，如棍球运动的视频数据，通过挖掘视频数据可以检测对应于进球的视频序列。
对于万维网数据，Web挖掘可以对网页进行分类，并发现Web的动态，以及不同网页、用户、社区和基于Web的活动之间的关联和联系。

在这些数据上挖掘是高级课题，所用的方法是本书提供的基本技术的扩展。

1.4 可以挖掘什么类型的模式

数据挖掘功能用于指定数据挖掘任务发现的模式或知识的类型，包括五方面：特征化与区分，频繁模式、关联和相关性挖掘、分类与回归，聚类分析，离群点分析。数据挖掘的任务分为两类：描述性和预测性。描述性挖掘任务刻画目标数据中数据的一般性质，即总结归纳已有的数据；预测性挖掘任务在当前数据上进行归纳，以便做出预测，即根据对已有数据的总结归纳，对新数据的未知部分进行预测。

（1）特征化与区分。

数据特征化

数据特征化是目标类数据的一般特性或特征的汇总。

后续章节将要学习到的数据汇总和特征化的有效方法：1）基于统计度量和图的简单数据汇总；2）基于数据立方体的OLAP上卷操作可以用来执行用户控制的、沿着指定维的数据汇总；3）面向属性的归纳技术可以用来进行数据的泛化和特征化。

数据特征化的输出：饼图、条图、曲线、多维数据立方体、多维表。

数据区分

数据区分是将目标类数据对象的一般特征与一个或多个对比类对象的一般特性进行比较。数据区分的实质是区分两个可以对比的对象，在对比时需要抽取两个对象的不同特征。

用于数据区分的方法与用于数据特征化的方法类似。

数据区分的输出：提供两个对象具有比较度量的特征描述。

此部分内容将在第4章详细介绍。

（2）挖掘频繁模式、关联和相关性

频繁模式：在数据中频繁出现的模式。它存在多种类型的频繁模式，包括频繁项集，频繁子序列和频繁子结构。

频繁项集：频繁地在事物数据集中一起出现的商品的集合。如商店被频繁一起购买的牛奶和面包。频繁项集挖掘是频繁模式挖掘的基础。
频繁子序列：频繁出现的子序列。如很多客户先购买iPhone，然后购买iPad，再购买苹果笔记本，形成的“iPhone—>iPad—>苹果笔记本”序列就是频繁子序列）。
频繁子结构：频繁出现的子结构。如图、树或格。

挖掘频繁模式的目的是发现数据中有趣的关联和相关性。

关联分析是一种简单、实用的分析技术，可以发现存在于大量数据集中的关联或相关性。如对事务数据库进行关联分析，可以找出很多关联规则，如牛奶—>面包，这些关联规则是否有价值需要使用支持度和置信度两个量来衡量，因此关联规则可以写成：

牛奶—>面包[30%,50%]

30%表示支持度，即事务数据库中的所有事务中有30%的事务显示牛奶和面包一起购买；

50%表示置信度，即一个顾客购买牛奶，则购买面包的可能性是50%。

如果一个关联规则不能同时满足最小支持度阈值和最小置信度阈值，则此关联规则被认为是无趣的而被丢弃。当然，如果一个关联规则同时满足最小支持度阈值和最小置信度阈值，则此关联规也不一定是有趣的，还需要其他量进行衡量。

此部分内容将在第6章详细介绍。

（3）分类与回归

如上图，分类或回归是这样的过程，它找出描述和区分数据类或概念的模型（或函数），以便能够使用模型（或函数）预测未知对象的类标号。分类和回归的区别是：分类预测的类别标号是离散的、无序的，而回归建立的是连续值函数模型。如下图的例子，根据前几天的天气状况，预测明天的天气状况就是分类，根据前几天的温度，预测明天的温度就是回归。