Pandas 数据清洗与准备

River Chandler

已于 2022-07-23 17:37:43 修改

阅读量387

点赞数

分类专栏： Python语言程序设计方法与案例文章标签：数据载入缺失值处理数据清洗数据转换异常值检测

于 2022-07-23 08:40:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Chandler_river/article/details/125943061

版权

Python语言程序设计方法与案例专栏收录该内容

38 篇文章 2 订阅

订阅专栏

数据载入

文本格式数据的读写

read_csv 和 read_table

一些reaf_csv/read_table函数参数

path	表明文件系统位置
header	用作列名的行号,默认为0,没有列名的话,应该为None
names	结果的列名列表,要和header=None一起使用
nrows	从文件开头读入的行数

数据写出

一些参数列表

sep	分隔符
na_rep	对缺失值进行标注
index=False	隐藏行标签
header=False	隐藏列标签
columns=[]	选择写入的列,并按照columns的顺序

数据清洗与准备

处理缺失值

dropna过滤DataFrame缺失值

当传入how="all"时，将只删除所有值均为NA的行

如果要删除列，需要传入参数axis=1

fillna补全缺失值

1.fillna()使用一个常数来替代缺失值

或者用一个字典为不同列设置不同的填充值

fillna返回的是一个新对象，但是如果传入参数inplace=True可以修改原对象

fillna参数列表

参数	描述
value	标量值或字典对象用于填充缺失值
method	插值方法，默认为"ffill"
axis	需要填充的轴，默认为axis=0
inplace	修改被调用的对象
limit	向前或向后填充的最大填充范围

数据转换

删除重复值

duplicate()方法和drop_duplicates()返回DataFrame

drop_duplicated()返回的是数组中为False的部分

利用map做数据转换

利用replace做替代值

离散化和分箱

codes,categories方法和cut，value_counts函数

可以向cut函数传递参数right=False来改变封闭的一边

可以向labels选项传递一个参数来自定义箱名

检测和过滤异常值

describe方法

选取行或者列

选取一列中绝对值大于三的值

在这里使用any方法

用sign函数判断正负

完

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
Pandas 数据清洗与准备

Pandas 数据清洗与准备
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

River Chandler 谢谢,我会更努力学习工作的!!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。