实 验 目 的:
1、理解数据预处理基本方法
2、熟练使用Pandas进行
实 验 环 境:
Anaconda
实 验 内 容 及 过 程:
1、数据清洗 2、数据集成 3、数据标准化
1、数据清洗
①检测与处理缺失值(图1)
②利用isnull().sum()统计缺失值(图2)
③用info方法查看DataFrame的缺失值。(图3)
④缺失值的处理
- 删除缺失:Series的dropna用法(图4)。
DataFrame对象的dropna默认参数使用(图5)。
传入参数all(图6)
- 均值填充缺失值:Fillna()函数填充缺失值(图7)
DataFrame中用均值填充。(图8)
图一
图二
图三 图四
图5
图6
图7 图8
2、数据集成
①利用Python计算属性间的相关性。
3、数据变换
①将图像进行小波变换并显示。
3、数据标准化
①数据的标准化、方差和标准差求解示例(图9)
②数据的缩放示例(图10)
图9
图10
实 验 心 得:
数据预处理是数据挖掘的第一个步骤,主要有数据清洗、数据集成、数据规约和数据变换等办法。而且在数据清洗时一定要明确清洗的目的。
第一题其实利用的就是isnull()。他的主要作用就是用来判断哪个数据是NaN而且我们需要知道Pandas中,缺失值的表示是为NA的。
缺失值的处理操作中,我们这次实验分成了删除缺失值、填充缺失值这两种,分别利用了dropna()函数以及fillna()函数。在填充部分,可以根据需要利用均值、中位数和众数来进行填充,当然也能利用fillna(0)进行0的填充。
在数据集成部分,学习了数值属性的相关系数和属性的协方差计算。其与数据标准化中的标准差不同,协方差是期望值的运算,标准差又称零均值标准化,经过这种方法处理的数据均值为0,标准差为1.