数据预处理

实 验 目 的: 

1、理解数据预处理基本方法

2、熟练使用Pandas进行

实 验 环 境:

Anaconda

实 验 内 容 及 过 程: 

1、数据清洗 2、数据集成 3、数据标准化

1、数据清洗

①检测与处理缺失值(图1)

②利用isnull().sum()统计缺失值(图2)

③用info方法查看DataFrame的缺失值。(图3)

④缺失值的处理

  1. 删除缺失:Series的dropna用法(图4)。

DataFrame对象的dropna默认参数使用(图5)。

传入参数all(图6)

  1. 均值填充缺失值:Fillna()函数填充缺失值(图7)

DataFrame中用均值填充。(图8)

图一

图二

 

             图三                                                                               图四 

图5

图6

    

                     图7                                                                                            图8

2、数据集成

①利用Python计算属性间的相关性。

3、数据变换

①将图像进行小波变换并显示。

3、数据标准化

①数据的标准化、方差和标准差求解示例(图9)

②数据的缩放示例(图10)

图9

 

图10

 

实 验 心 得:

数据预处理是数据挖掘的第一个步骤,主要有数据清洗、数据集成、数据规约和数据变换等办法。而且在数据清洗时一定要明确清洗的目的。

第一题其实利用的就是isnull()。他的主要作用就是用来判断哪个数据是NaN而且我们需要知道Pandas中,缺失值的表示是为NA的。

缺失值的处理操作中,我们这次实验分成了删除缺失值、填充缺失值这两种,分别利用了dropna()函数以及fillna()函数。在填充部分,可以根据需要利用均值、中位数和众数来进行填充,当然也能利用fillna(0)进行0的填充。

在数据集成部分,学习了数值属性的相关系数和属性的协方差计算。其与数据标准化中的标准差不同,协方差是期望值的运算,标准差又称零均值标准化,经过这种方法处理的数据均值为0,标准差为1.

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值