对数据理解:
数据挖掘一般步骤:数据收集——数据预处理——数据分析——数据挖掘
数据预处理:一般是重点。最终挖掘的效果好坏,主要看预处理后的数据好不好。所以预处理也许会花费较长的时间。
数据预处理有四个任务,数据清洗、数据集成、数据变换和数据规约。
具体代码参考:
https://blog.csdn.net/Anne999/article/details/69261592?locationNum=3&fps=1
一、数据清洗
数据清洗:缺失值处理、异常值处理。
1. 缺失值处理:删除记录、数据补差和不处理。
一般用均值、中位数补差较多。
2. 异常值处理:分析异常值的原因,再决定取舍。
(1) 删除有异常值的记录 (2)视为缺失值 (3)平均值修正 (4)不处理
二、数据集成
将多个数据源放在一个统一的数据仓库中。
1.实体识别: 同名异义 、异名同义 、单位不统一
2.冗余属性识别 :同一属性多次出现 、同一属性命名不一致
三、数据变换
对数据进行规范化处理
1.简单函数变换
原始数据进行数学函数变换,平方、开方、取对数、差分运算。用来将不具有正太分布的数据变换成具有正太性的数据。
时间序列分析中,对数变换或者差分运算可以将非平稳序列转换为平稳序列。
2.规范化
消除指标间量纲影响 :
(1)最小-最大规范化 (归一化)(2)零-均值规范化 (3)小数定标规范化
3.连续属性离散化
将连续属性变为分类属性,即连续属性离散化。数据离散化本质上通过断点集合将连续的属性空间划分为若干区,最后用不同的符号或者整数值代表落在每个子区间中的数据。离散化涉及两个子任务:确定分类以及如何将连续属性值映射到这些分类值。
(1)等宽法 (2)等频法 (3)基于聚类分析的方法
4.属性构造
利用已有的属性构造新的属性,并加到现有的属性中。
例如:将长方形的长和宽,变为面积——减少数据维度。
5. 小波变换
非平稳序列的分析手段。
基于小波变换的特征提取方法:
(1)基于小波变换的多尺度空间能量分布特征提取法
(2)基于小波变换的多尺度空间的模极大特征值提取法
(3)基于小波变换的特征提取方法
(4)基于适应性小波神经网络的特征提取方法
四、数据规约
降低无效,错误数据对建模的影响,提高建模的准确性。
少量且代表性的数据将大幅缩减数据挖掘所需时间。
降低存储数据成本。
1.属性规约(降维)
(1)合并属性(2)逐步向前选择(3)逐步向后删除(4)决策树归纳(5)主成分分析
(6)小波转换
降维技术:主成分分析(应用最为广泛)、因子分析、独立成分分析。
3.数值规约
通过选择替代的、较小的数据来减少数据量,包含有参数方法和无参数方法两类;(1)有参数方法使用模型评估数据,不需要存放真实数据,只需要存放参数,例如回归、对数线性模型。
(2)无参数需要数据,例如直方图、聚类、抽样。
具体方法:分箱、回归、聚类、决策树、卡方检验。
数据预处理大概流程参考:https://blog.csdn.net/u011094454/article/details/77618604
https://blog.csdn.net/u010089444/article/details/70053104