数据挖掘复习总结
根据老师课件、课本、网络资料总结,供开卷考试复习使用
第一章-绪论
面临的问题:1.自动数据收集工具;2.成熟的数据库系统的应用;3.大量数据
解决方法:数据仓库(数据仓库与连接分析)、数据挖掘(挖掘感兴趣的模式)
- 数据挖掘是用人工智能、机器学习、统计学、数据库的交叉方法在相对较大型的数据库的数据集中发现模式的计算过程
- 领域专家或领域知识对数据挖掘重要:
1.验证数据的合理性;2.验证信息的有效性
第二章-数据、数据库、数据仓库
- 数据 = 数据对象和他们属性的集合
第三章-数据预处理
-
为什么要进行数据预处理:P23
因为脏数据:数据中存在误差(测量误差、收集误差;难以处理)、数据不一致(手工处理、耗时)、噪声(包含错误或孤立点或离群点;对噪音的处理具有两面性)、不完整(缺少数据值、缺乏某些重要属性、仅包含汇总数据)、重复数据、P26数据质量的其他问题(时效性、相关性、采样合理性) -
数据预处理的重要性:
高质量的决策必须依赖高质量的数据
数据仓库需要对高质量的数据进行一致地集成
低质量的数据算法效果不好 -
数据预处理的主要任务:
数据清理(填写空缺的值、平滑噪声数据、识别、删除孤立点、解决不一致性)
数据集成(继承多个数据库…)
数据变换(规范化、聚集)
数据归约
数据离散化(是数据归约的一部分,通过概念分层和数据的离散化来归约数据,对数字型数据非常重要)汇总统计(数据探索)P60
汇总统计是量化的,用单个数或数的小集合捕获可能很大的值集的特征。
-
度量数据的中心趋势
均值、中位数、众数、中列数 -
度量数据的离散数据
四分位数、四分位数极差、方差 -
度量的分类
分布式度量:将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样
代数度量:可以通过在一个或多个分布式度量上应用一个代数函数得到
整体度量:必须对整个数据集计算的度量 -
度量中心趋势
算数平均值
加权算术平均
截断均值:去掉高、低极值得到的均值
中位数(有序集)
众数
-
度量数据的离散度
最常用:极差、五数概括、中间四分位数极差和标准差
五数概括(min Q1 Median Q3 max)数据清理
-
数据清理任务
填写空缺的值
识别离群点和平滑噪声数据
纠正不一致的数据
解决数据集成造成的冗余
数据脱敏 -
引起空缺值的原因
设备异常
与其他已有数据不一致而