第一章
数据挖掘的概念
- 从数据库的大量数据中挖掘出有用的信息,即从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,发现隐含的、规律性的、人们事先未知的,但又是潜在有用的并且最终可理解的信息和知识的非平凡过程。
数据挖掘和那些学科有关联
- 机器学习、人工智能、数据库理论、统计学
数据挖掘的研究内容及功能
-
目前数据挖掘的主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及Web数据挖掘等。
-
数据挖掘的功能:类/概念描述:特征化和区分,关联分析,分类和预测, 聚类分析,孤立点分析,演变分析
第二章
2.1 数据与处理的目的
2.2 数据清理
2.3 数据集成和数据变换
2.4 数据规约
- 数据预处理(Data Preprocessing):是指在对数据进行数据挖掘的主要处理以前,先对原始数据进行必要的清理、集成、转换、离散和归约等一系列的处理工作,以达到挖掘算法进行知识获取研究所要求的最低规范和标准。
- 常见的数据预处理方法有:
- 数据清理:明确有缺失值怎么处理(列出两三种处理缺失值的方法:忽略元组,人工填写缺失值)
- 数据集成:就是将来自多个数据源的数据合并到一起,形成一致的数据存储
- 数据变换:主要是将数据转换成适合于挖掘的形式,如将属性数据按比例缩放
- 数据归约 :在不影响挖掘结果的前提下,通过数值聚集、删除冗余特性的办法压缩数据,提高挖掘模式的质量,降低时间复杂度
- 噪声(Noise)是指被测量变量的随机误差或方差。给定一个数值属性,如Price,我们怎样才能“光滑”数据去掉噪声?常见的数据光滑技术包含如下几种:
- 分箱(Binning):分箱方法通过考察数据的“近邻”(即周围的值)来光滑有序数据的值,有序值通常分布到一些“桶”或箱中。由于分箱方法考察近邻的值,因此用来进行局部光滑。一般来说,宽度越大光滑效果越大,箱也可以是等宽的,即每个箱值的区间范围是个常量
- 等深分箱:就是平均分配
- 等宽分箱:就是比如直方图中X值按照一个区间划分,但个数不一定相等
- 回归:可以用一个函数(如回归函数)进行数据拟合来达到光滑数据的目的。线性回归涉及找出拟合两个属性(或变量)的“最佳”线,使得一个属性可以用来预测另一个属性。
- 聚类:可以通过聚类检测离群点,将类似的值组织成群或“簇”。直观地,落在簇集合之外的值视为离群点
- 分箱(Binning):分箱方法通过考察数据的“近邻”(即周围的值)来光滑有序数据的值,有序值通常分布到一些“桶”或箱中。由于分箱方法考察近邻的值,因此用来进行局部光滑。一般来说,宽度越大光滑效果越大,箱也可以是等宽的,即每个箱值的区间范围是个常量
- 连续域:可以使用皮尔逊相关系数R 理解这东西什么含义
- 相关系数rA,B的值在区间[-1.1]中。大于0则为正相关,小于0则负相关,等于0则认为AB相互独立。
- 离散域:可以使用卡方检验 记住公式
- 理解化妆例子:
- 数据泛化:使用概念分层,用高层概念替换低层或“原始”数据。例如,对于年龄这种数值属性,“原始数据”可能包含20、30、40、50、60、70等,可以将上述数据映射到较高层的概念,如青年、中年和老年。
- 规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.01.0或0.01.0。规范化可以消除数值型属性因大小不一而造成的挖掘结果偏差。
- 掌握其中最少两种方法,给数据要算的出来:
- 最大-最小规范化: