【无标题】

最新推荐文章于 2024-08-21 16:56:45 发布

︶ㄣ我18、O_o岁ㄜ

最新推荐文章于 2024-08-21 16:56:45 发布

阅读量68

点赞数

文章标签： pandas python 机器学习

原文链接：https://github.com/datawhalechina/hands-on-data-analysis

版权

pandas 任务二数据的清洗及特征值处理

一、缺失值观察与处理
二、对缺失值进行处理
三、重复值的观察与处理
四、对重复数据进行处理
五、特征值的观察与处理
六、对文本变量进行转换以及简单的转换为one-hot编码
七、总结

一、缺失值观察与处理

主要的结构就是 df.isnull().sum()
在这里插入图片描述
最后出现的结果就是显示各个属性值下对应的数据个数

二、对缺失值进行处理

基本结构就是 df[df[‘属性’].isnull()]=赋值
在这里插入图片描述

运行的结果就是在缺失值的地方由NaN变为0

三、重复值的观察与处理

基本结构为:df[f.duplicates()]
在这里插入图片描述
最后显示出来的是重复数据

四、对重复数据进行处理

在这里插入图片描述
删除重复的数据

五、特征值的观察与处理

基本原理就是进行封箱操作，然后对数据进行相应的处理。
这里有用到cut和qcut函数。我的理解就是根据对应的特征值下的数据按照相应的分类顺序，最后对这类数据赋予值并存在新的特征值下用来区分。
例如把依据变量Age平均分成5个年龄段，并用变量1，2，3，4，5表示出来：
在这里插入图片描述
最后就是按照相应的分类将相应的数据存在特征AgeBand下面。
后面的划分类似，就是qcut是按照变量的个数等分的划分，cut是按照变量的值划分，前提是会进行被排序。

六、对文本变量进行转换以及简单的转换为one-hot编码

查看文本变量名及种类
在这里插入图片描述
运行的结果就是显示各个数据及种类

这是法二，不同的是显示的是一个列表。
接下来是替代：用到了replace函数和map函数。区别就是前者的参数是列表，而后者的参数是字典。

最后，简单的one-hot转换

在这里插入图片描述
最后可以将数据进行相应的拆分最终形成one-hot编码。

七、总结

在本次学习中，我知道了数据的清洗及特征值处理，进行了缺失值的观察，即df.isnull().sum()，及对缺失值进行处理，对缺失的地方赋值其他的值，然后学习了重复值的观察与处理，接着是特征值的观察与处理，最后了解了一些one-hot的知识但不是特别的精通，还需要自己后期取多多学习进行补充。

︶ㄣ我18、O_o岁ㄜ

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【无标题】

pandas task2
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。