Pandas学习笔记04-数据清洗(缺失值与异常值处理)

最新推荐文章于 2024-08-05 13:31:45 发布

可以叫我才哥

最新推荐文章于 2024-08-05 13:31:45 发布

阅读量1.7k

点赞数 1

分类专栏： Python数据分析

本文链接：https://blog.csdn.net/dxawdc/article/details/106963258

版权

Python数据分析专栏收录该内容

14 篇文章 3 订阅

订阅专栏

文章目录

之前我们介绍过通过索引获取自己想要的数据，这节我们介绍在数据清洗过程中遇到缺失值、异常值时的一些处理方式以及我们需要对某列的值就行分组的时候怎么解决。
原始数据集来自本周刚抓取的创造营2020撑腰榜数据，公众号后台回复‘ 异常值’可以获得本节使用的数据集与ipynb文件。
导入包及数据集

1.查看缺失值

isnull 和 isna 可以获取返回缺失值的布尔值，为True则表示缺失值，False则表示非缺失值
notnull 和 notna 与上述效果相反
查看缺失值

在对dataframe进行操作时，会对全部元素进行判断
dataframe查看缺失值此外，**df.info()**也可以查看每列数据缺失值情况

查看缺失值的详情数据
查看缺失值数据

2.删除缺失值

**df.dropna()**是用于进行缺失值删除的方法，默认情况下会删除含有缺失值的数据(行或列)，我们可以通过设置参数how='all’或’any’来进行条件删除。
删除缺失值数据除了参数how之外，我们还可以设置参数 axis = 0或 1来决定删除行还是列
**any()和all()**方法
本质上是判定列或行各元素布尔类型的条件状态，通过这种形式我们也可以进行缺失值数据的选取。
大家可以思考一下，如何通过这种方式删除含有缺失值的行以及删除全部都是缺失值的行
any和all方法

3.填充缺失值

fillna()用于进行缺失值的填充，同样我们也可以用replace进行缺失值的替换
在用fillna()进行缺失值填充时，我们还可以传入参数method与limit进行填充方向及填充范围限制
向前后填充及限制

4.值的替换

**df.replace()**方法进行值的替换，上面我们简单介绍过其替换缺失值的情况
replace进行值的替换同时，也可以进行多值的多值替换，通过列表或传递字典的形式
字典形式

5.离散化与分箱

我们在做数据清洗处理的时候，往往会遇到对一些数据指标进行分组的情况，比如年龄段分组
一种方式我们可以自己定义函数，然后map或apply映射进行处理，这个可拓展性很强，除了对数值类进行分组外还可以对字符串等更多类型进行自定义分组
使用map+自定义函数形式进行分组
pandas也提供了一种方式，cut和pcut方法，对数值型的进行分箱离散化
cut分箱方法
qcut按照样本分位数进行分箱
qcut按照样本分位数分箱