数据挖掘与概念技术-01-CSDN博客

数据挖掘领域已经取得了重大进展，开发出了许多新的数据挖掘方法、系统和应用，特别是对于处理包括信息网络、图、复杂结构和数据流，以及文本、web、多媒体、时间序列、时间空间数据在内的新的数据类型。

本书网站的地址是：www.cs.uiuc.edu/~hanj/bk3 或者 www.booksite.mkp.com/datamining3e

本书目录：

第一章引论

第二章认识数据

第三章数据预处理

第四章数据仓库与联机分析处理

第五章数据立方体技术

第六章挖掘频繁模式、关联和相关性：基本概念和方法

第七章高级模式挖掘

第八章分类：基本概念

第九章分类：高级方法

第十章聚类分析：基本概念和方法

第十一章高级聚类分析

第十二章离群点检测

第十三章数据挖掘的发展趋势和研究前言

第一章引论

1.1 为什么进行数据挖掘

可用数据的爆炸式增长是我们的社会计算机化和功能强大的数据收集和存储工具快速发展的结果。世界范围的商业活动产生了巨大的数据集，包括商超、医疗保健、社会化媒体等。数据的爆炸式增长、广泛可用和巨大数量使得我们的时代成为真正的数据时代，数据挖掘就是从这些海量数据中发现有价值的信息，把这些数据转化成有组织的知识。

最近出现的一种数据存储结构是数据仓库。这是一种多个异构数据源在单个站点以统一的模式组织的存储，以支持管理决策。数据仓库技术包括数据清理、数据集成和联机分析处理OLAP。

1.2 什么是数据挖掘

数据挖掘，是从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、web、其他信息存储库或动态地流入系统的数据。由以下步骤的迭代序列组成：

数据清理（消除噪声和删除不一致数据）
数据集成（多种数据源可以组合在一起）
数据选择（从数据库中提取与分析任务相关的数据）
数据变换（通过汇总活聚集操作，把数据变换和统一成适合挖掘的形式）
数据挖掘（基本步骤，使用智能方法提取数据模式）
模式评估（根据某种兴趣度度量，识别代表知识的真正有趣的模式）
知识表达（使用可视化和知识表示技术，向用户提供挖掘的知识）

1.3 可以挖掘什么类型的数据

数据挖掘可以用于任何类型的数据。

1.3.1 数据库数据

关系数据库是数据挖掘最常见、最丰富的信息源，因此它是我们数据挖掘研究的一种主要数据形式。

1.3.2 数据仓库

数据仓库是一个从多个数据源收集的信息存储库，存放在一致的模式下，并且通常驻留在单个站点上。数据仓库通过数据清理、数据变化、数据集成、数据装入和定期数据刷新来构造。

数据仓库存储从历史的角度提供信息，并且通常是汇总的。数据仓库用称作数据立方体（data cube）的多维数据结构建模。其中，每个维对应于模式中的一个或一组属性，而每个单元存放某种聚集度量值，如count或sum。数据立方体提供数据的多维视图，并允许预计算和快速访问汇总数据。

OLAP操作的例子包括下钻（drill-down）和上卷（roll_up），它们允许用户在不同的汇总级别观察数据。

尽管数据仓库工具对于支持数据分析是有帮助的，但是进行深入分析仍然需要更多的数据挖掘工具。多维数据挖掘（也称探索式多维数据挖掘）以OLAP风格在多维空间进行数据挖掘。也就是说，在数据挖掘中，允许在各种粒度进行多维组合探查，因此更有可能发现代表知识的有趣模型。

1.3.3 事务数据

事务数据库 是一种专门为记录“事务”而设计的数据库。简单来说，它回答的问题是：“哪些事情总是一起发生？”

核心概念：事务
- 一个事务代表一个完整的工作逻辑单元，通常对应现实世界中的一个业务事件。
- 最典型的例子就是超市的销售记录：一次顾客的购物小票就是一条事务。它记录了在某个时间点，一位顾客同时购买了哪些商品。
- 关键特性：事务具有原子性，即一个事务中的所有操作要么全部完成，要么全部不完成。
数据结构：
- 通常不采用复杂的多表关联，而是用非常简单的结构。
- 最常见的结构是一个包含 事务ID（TID） 和 商品项（Item） 的二维表。

事务ID (TID)	商品项 (Items)
T1	{牛奶，面包，黄油}
T2	{啤酒，尿布}
T3	{牛奶，尿布，啤酒，可乐}
T4	{面包，黄油，尿布}
T5	{面包，黄油，牛奶}

1.3.3.1 主要特点

面向集合：每个事务都是一组项的集合。
模式简单：与传统的关系型数据库（用于联机事务处理 OLTP）相比，它的模式通常非常扁平，不适合复杂的查询和更新。
一次写入，多次读取：数据一旦被记录为事务，就很少修改，主要用于后续的分析和查询。
海量数据：在零售、电商等领域，事务数据会以惊人的速度增长（大数据）。

1.3.3.2 经典应用：购物篮分析

事务数据库最著名的应用就是购物篮分析。通过分析事务数据，商家可以回答以下问题：

“顾客在购买A商品时，有多大可能也会同时购买B商品？”
“哪些商品组合最经常被一起购买？”

这直接引出了关联规则挖掘，其中最经典的算法就是 Apriori算法。

关联规则 的形式： X -> Y （例如：{尿布} -> {啤酒}）
- 支持度：同时包含X和Y的事务占总事务的比例。衡量规则的重要性。
- 置信度：在包含X的事务中，也包含Y的条件概率。衡量规则的可靠性。

在上面的例子中：

规则 {面包，黄油} -> {牛奶} 的置信度很高，因为买了面包和黄油的顾客（T1， T5）大部分也都买了牛奶。

1.3.3.3. 事务数据库 vs. 关系型数据库 (OLTP)

这是一个重要的区别：

特性	事务数据库 (用于分析)	关系型数据库 (OLTP)
主要目的	数据分析、数据挖掘	日常业务操作（增、删、改、查）
数据模型	简单、扁平（事务-项目）	复杂、规范化（多表关联）
操作类型	主要是大批量的读操作	读、写、更新操作混合，强调事务的ACID特性
设计目标	查询和分析效率	数据一致性、完整性、高并发
典型代表	数据仓库中的事实表	MySQL, PostgreSQL, Oracle

关系：通常，事务数据首先在关系型OLTP数据库（如销售系统）中被产生和记录。然后，这些数据会被提取、转换、加载到数据仓库中，并以类似事务数据库的结构（称为“事实表”）存储，以便进行后续的分析和挖掘。

1.3.3.4 其他应用领域

除了零售业，事务数据库还广泛应用于：

网络安全：分析网络日志，找出异常访问模式（例如，多次失败的登录尝试后的一次成功登录可以视为一个可疑事务）。
医疗诊断：分析病人的症状和诊断结果，发现疾病与症状之间的关联。
生物信息学：分析基因序列数据。
推荐系统：通过分析用户的购买历史或点击流（可视为事务），为用户推荐可能感兴趣的商品或内容

1.3.4 其他类型的数据

除上述数据类型外，还有时间相关或序列数据、数据流、空间数据、工程设计数据、超文本和多媒体数据、图和网状数据和万维网。这样的数据需要复杂的机制，以便有效得存储、检索和更新大量复杂的数据，但是它们也为数据挖掘提供了肥沃的土壤，提出了挑战性的研究和实现问题。

1.4 可以挖掘什么类型的模式

数据挖掘功能用于指定数据挖掘任务发现的模式。一般而言，这些任务可以分为两类：描述性和预测性。描述性挖掘任务刻画目标数据中数据的一般性质。预测性挖掘任务在当前数据上进行归纳，以便做出预测。

1.4.1 类/概念描述：特征化与区分

数据可以与类活概念相关联。可以通过以下方法进行类或者概念的描述

数据特征化，一般地汇总所研究类(通常称为目标类)的数据。数据特征化的输出可以用多种形式提供，例如饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。结果描述也可以用广义关系或规则（称作特征规则）形式提供。
数据区分：将目标类与一个或多个可比较类（通常称为对比类）进行比较。
数据特征化和区分

1.4.2 挖掘频繁模式、关联和相关性

频繁模式是在数据中频繁出现的模式，包括：

频繁项集

一般是指频繁地在事务数据集中一起出现地商品地集合，如小卖部中被许多顾客频繁地一起购买地牛奶和面包。

频繁子序列(又称序列模式)

如顾客倾向于先购买便携机，再购买数码相机，然后再购买内存卡这样地模式就是一个序列模式。子结构可能涉及不同的结构形式（例如，图、树或格），可以与项集或子序列结合在一起。

频繁子结构

如果一个子结构频繁地出现，则称它为频繁结构模式。

频繁项集挖掘是频繁模式挖掘地基础。

1.4.3 用于预测分析的分类与回归

分类，是找出描述和区分数据类或概念的模型（或函数），以便能够使用模型预测类标号未知的对象的类标号。导出模型是基于对训练数据集（即，类标号已知的数据对象）的分析。该模型用来预测类标号未知的对象的类标号。

导出的模型可以用多种形式表示：

IF-THEN规则
决策树：类似流程图的树结构，其中每个节点代表在一个属性值上的测试，每个分支代表测试的一个结果，而输液代表类或类分布。容易把局册数转换为分类规则；
神经网络：是一组类似于神经元的处理单元，单元之间加权连接。还有许多构造分类模型的其他方法，如朴素贝叶斯分类、支持向量机和K最近邻分类。

回归建立连续值函数模型。回归用来预测缺失的或难以获得的数值数据值，而不是离散的类标号。术语预测是指数值预测和类标号预测。

相关分析可能需要在分类与回归之前进行，它试图识别与分类和回归过程显著相关的属性。我们将选取这些属性用于分类和回归过程，其他属性是不相关的，可以不必考虑。

1.4..4 聚类分析

可以使用聚类产生数据组群的类标号。对象根据最大化类相似性、最小化类间相似性的原则进行聚类或者分组。也就是说，对象的簇这样形成，使得相比之下在同一簇中的对象具有很高的相似性，而与其他簇中的对象很不相似。所形成的每个簇都可以看做一个对象类，有它可以导出规则。聚类也便于分类法形成，即将观测组织成类分层结构，把类似的事件组织在一起。