数据挖掘复习
第1章——绪论
1.大数据的四个特点(4v)种类多、体量大、产生速度快、价值密度低
2.2011年是大数据元年,最早出现于20世纪90年代,数据仓库之父BIll Inmon提起
3.什么是数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。
4.数据挖掘的主要方法有:分类、聚类、相关规则、回归和其他方法。
第2章——数据挖掘的过程
1、数据分析能力的八个等级:常规报表、即席查询、多维分析、警报、、统计分析、预报、预测模型、优化。
数据挖掘模型
一、三阶段过程模型
第3章——数据准备
数据收集
数据抽样
* 简单随机抽样:完全随机地从原始数据中抽取一定数量的样本。
* 简单无放回抽样
* 简单有放回抽样
* 系统抽样
* 对数据排序并编号
* 基于一定规则(距离)
* 分层抽样:把调查总体分为同质的、互不交叉的层(或类型),然后在各层(或类型)中独立抽取样本。
* 层内同质性
* 层间异质性
* 整群抽样
* 组内差异大
* 组间差异小
数据集成
- 面临的问题
- 异构性:包括系统异构、数据模式异构和数据异构
- 分布性
- 自治性
- 完整性
- 解决方案
- 数据仓库
- ETL物理上的聚集方式:ETL吉数据的抽取、转换、装载的过程,是构建数据仓库的一个典型过程,是一种批处理方法。
- 数据联邦(数据联合):是一种基于数据查询操作,从不同的数据源完成数据汇集,并构成一个虚拟化的数据库的数据集成方法。
- 虚拟化/逻辑上的聚集方式
- 中间件:通过统一的全局数据模型来访问异构的数据库、遗留系统、Web资源等。
数据清理:发现并纠正数据文件中可识别的错误的过程。
- 残缺数据、错误数据、重复数据、异义数据
数据规约
- 常用的数据规约方法:违规约、数据压缩、数值规约、离散化和概念分层以及数据变换。
- *违规约:*通过删除不相关的属性(或维)以减少数据集的复杂度和数据量。
数据变换
第4章——数据挖掘
数据探索
- 可视化
- 统计分析
- 集中量数
- 频率
- 中位数
- 均值
- 众数
- 差异量数
- 极差(全距)
- 标准差
- 四分位差
- 上四分位差 ——Q=(n-1)*0.75+1(n为数据个数)
- 下四分位差——Q=(n-1)*0.25+1
- MAE(平均绝对误差)
- MAD(中位数绝对偏差)
- 相关性量数
- 协方差/矩阵
- 相关系数/矩阵
第5章——关联分析
基本概念
- 集合
- 事务集:数据集
- 项集:大于支持度阈值——频繁项集(反之亦然)
- 支持度/计数
- 置信度:dangxiangj
- 关联规则
模型选择
- 聚类
- 关联规则
- Apriori
- 先验原理
- 如果一个项集是频繁的,则他的所有子集都是频繁的
- 如果一个项集是非频繁的,则他的所有超集都是非频繁的
- 算法过程
- 生成频繁项集
- Fk-1*Fk-1——合并规则——当且仅当两个有序Fk-1项集中的前k-2项相同且第k-1项不同时
- F1*Fk-1
- 生成关联规则
- 生成频繁项集
- 先验原理
- FP-Growth
- Apriori
- 分类
- 回归