一.为什么要进行数据挖掘:
1.迈向信息时代:
信息时代 = 数据时代
数据挖掘(KDD)把大型数据集转换成知识
2.数据挖掘是信息技术的进化:
(1)数据仓库: 这是一种多个异构数据源在单个站点以统一的模式组织的存储,以支持管理决策,一种数据存储结构,用于长期存储数据的仓库
(2)数据仓库技术:包括数据清理、数据集成和联机分析处理(OLAP)
(3)OLAP联机分析处理:一种分析技术,具有汇总、合并和聚集以及从不同角度观察信息的能力
二.什么是数据挖掘:
1.数据中的知识发现(KDD)
2.知识发现过程(前四步是数据预处理的不同形式,为数据挖掘准备):
(1)数据清理(消除噪声和删除不一致数据)
(2)数据集成(多种数据源可以组合在一起)
(3)数据选择(从数据库中提取与分析任务相关的数据)
(4)数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)
(5)数据挖掘(基本步骤,使用智能方法提取数据模式)
(6)模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式)
(7)知识表示(使用可视化技术和知识表示技术,向用户提供挖掘的知识)
3.广义的数据挖掘:
从大量数据中挖掘有趣模式和知识的过程,数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据
三.可以挖掘哪些类型数据:
1.数据库数据:关系数据库最常见
2.数据仓库:
是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。
数据仓库又称做数据立方体的多维数据结构建模,数据立方体提供数据的多维视图,并允许预计算和快速访问汇总数据;
通过提供多维数据视图和汇总数据的预计算,数据仓库非常适合联机分析处理(下钻和上卷)
多维数据挖掘,又称探索式多维数据挖掘:把数据挖掘的核心技术与基于OLAP的多维分析结合在一起,在不要的抽象层的多维组合中搜索有趣的模式,从而探索多维数据空间
3.事务数据:事务数据库的每个记录代表一个事务
4.其它类型的数据:多种数据类型
四.可以挖掘的类型的数据模式:
数据挖掘功能用于指定数据挖掘任务发现的模式,这些任务分为描述性和预测性。
描述性挖掘任务:刻画目标数据中数据的一般性质
预测性挖掘任务:在当前数据上进行归纳,以便做出预测
1.类/概念描述:特征化与区分
类/概念描述可以通过以下方法得到:
(1)数据特征化:目标类数据的一般特性或特征的汇总
(2)数据区分:将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较
(3)数据特征化和区分
2.挖掘频繁模式、关联和相关性:
频繁模式包括:
(1)频繁项集:指频繁地在事务数据集中一起出现额商品的集合,如频繁一起购买的牛奶和面包
(2)频繁子序列:比如顾客倾向于先购买一样再购买另外一样
(3)频繁子结构:可能涉及不同的结构形式,可以与项集或子序列结合在一起。一个子结构频繁出现,称其为结构模式
关联分析: 单维关联规则 多维关联规则
3.用于预测分析的分类与回归:
(1)分类: 找出描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象的类标号
导出模型的多种形式:分类规则、决策树、数学公式或神经网络
(2)回归:建立连续值函数模型,用来预测缺失的或难以获得的数值数据值
(3)相关分析:可能需要在分类和回归之前进行,它试图识别与分类和回归过程中显著相关的属性,我们将这些属性用于分类和回归过程
4.聚类分析:
聚类分析数据对象,不考虑类标号
原则:最大化类内相似性、最小化类间相似性
5.离散点分析:
离群点数据分析
6.模式是否有趣:
支持度、置信度
五.需要使用的技术:
1.统计学
2.机器学习:
监督学习(分类)、无监督学习(聚类)、半监督学习、主动学习
3.数据库系统与数据仓库
4.信息检索
六.面向的类型的应用:
两个流行应用: 商务智能 和 Web搜索引擎