数据预处理

要去看另一场太阳

于 2022-08-28 21:45:27 发布

阅读量280

点赞数

分类专栏：数据预处理文章标签： python 算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_22749197/article/details/126574872

版权

数据预处理专栏收录该内容

1 篇文章 0 订阅

订阅专栏

实验目的:

1、理解数据预处理基本方法

2、熟练使用Pandas进行

实验环境:

Anaconda

实验内容及过程:

1、数据清洗 2、数据集成 3、数据标准化

1、数据清洗

①检测与处理缺失值（图1）

②利用isnull().sum()统计缺失值（图2）

③用info方法查看DataFrame的缺失值。（图3）

④缺失值的处理

删除缺失：Series的dropna用法（图4）。

DataFrame对象的dropna默认参数使用（图5）。

传入参数all（图6）

均值填充缺失值：Fillna()函数填充缺失值（图7）

DataFrame中用均值填充。（图8）

图一

图二

图三图四

图5

图6

图7 图8

2、数据集成

①利用Python计算属性间的相关性。

3、数据变换

①将图像进行小波变换并显示。

3、数据标准化

①数据的标准化、方差和标准差求解示例（图9）

②数据的缩放示例（图10）

图9

图10

实验心得：

数据预处理是数据挖掘的第一个步骤，主要有数据清洗、数据集成、数据规约和数据变换等办法。而且在数据清洗时一定要明确清洗的目的。

第一题其实利用的就是isnull（）。他的主要作用就是用来判断哪个数据是NaN而且我们需要知道Pandas中，缺失值的表示是为NA的。

缺失值的处理操作中，我们这次实验分成了删除缺失值、填充缺失值这两种，分别利用了dropna()函数以及fillna()函数。在填充部分，可以根据需要利用均值、中位数和众数来进行填充，当然也能利用fillna（0）进行0的填充。

在数据集成部分，学习了数值属性的相关系数和属性的协方差计算。其与数据标准化中的标准差不同，协方差是期望值的运算，标准差又称零均值标准化，经过这种方法处理的数据均值为0，标准差为1.

要去看另一场太阳

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。