一、数据清洗
删除原始数据集中的无关数据、重复数据,平滑噪声数据,处理缺失值、异常值。
- 缺失值处理
删除缺失值、数据插补、不处理
Scipy:拉格朗日插值法
from scipy.interpolate import lagrange#导入拉格朗日插值函数
- 异常值处理
直接删除、视为缺失值、平均值填补、不处理
二、数据集成
将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程
- 实体识别
统一不同源数据的矛盾之处:同名异义、异名异义、单位不统一
- 冗余属性识别
同一属性多次出现、同一属性命名不一致导致重复
使用相关分析检测:给定两个数值型的属性A和B,根据其属性值,用相关系数度量一个属性在多大程度上蕴含另一个属性
计算相关系数:
Pearson 相关系数:分析两个连续变量之间的关系,且连续变量的取值服从正态分布。
Spearman 秩相关系数:分析不服从正态分布的变量、分类或等级变量见的关联性。
引入 Pandas 用于读取数据
计算示例:
data.corr( )[u'A的销量']
代码示例: https://mp.csdn.net/postedit/102562564
结果:列出所有产品销量与A销量的相关系数
三、数据变换
对数据进行规范化处理,转换成适于挖掘的形式。
- 简单函数变换
平方、开方、取对数、差分运算,以将不具有正态分布的数据变换城具有正态分布的数据。
- 规范化
将数据进行标准化处理,按照比例进行缩放,使之落入一个特定的区域,消除指标之间的量纲和取值范围差异的影响。
引入 Pandas 用于读取数据,numpy 用于计算数据
最小—最大规范化:离差标准化,是对原始数据的线性变换,将数值映射到 [0,1] 之间。
(不适用于数值集中且某个数值很大的情况)
转化公式: x*=(x-min)/(max-min)
max:样本数据的最大值; min:样本数据的最小值; max-min为极差
计算示例:( data-data.min() ) / ( data.max() -