Pandas 数据清洗与准备

数据载入

文本格式数据的读写

        read_csv 和 read_table 

一些reaf_csv/read_table函数参数

path表明文件系统位置
header用作列名的行号,默认为0,没有列名的话,应该为None
names结果的列名列表,要和header=None一起使用
nrows从文件开头读入的行数

数据写出

一些参数列表

sep分隔符
na_rep对缺失值进行标注
index=False隐藏行标签
header=False隐藏列标签
columns=[]选择写入的列,并按照columns的顺序

数据清洗与准备 

处理缺失值

dropna过滤DataFrame缺失值

当传入how="all"时,将只删除所有值均为NA的行

如果要删除列,需要传入参数axis=1

fillna补全缺失值

1.fillna()使用一个常数来替代缺失值

或者用一个字典为不同列设置不同的填充值

fillna返回的是一个新对象,但是如果传入参数inplace=True可以修改原对象

fillna参数列表

参数描述
value标量值或字典对象用于填充缺失值
method插值方法,默认为"ffill"
axis需要填充的轴,默认为axis=0
inplace修改被调用的对象
limit向前或向后填充的最大填充范围

 数据转换

删除重复值

duplicate()方法和drop_duplicates()返回DataFrame

drop_duplicated()返回的是数组中为False的部分 

利用map做数据转换

利用replace做替代值 

离散化和分箱 

codes,categories方法和cut,value_counts函数

可以向cut函数传递参数right=False来改变封闭的一边

可以向labels选项传递一个参数来自定义箱名

检测和过滤异常值 

 describe方法

选取行或者列

选取一列中绝对值大于三的值

在这里使用any方法

用sign函数判断正负

 

完 

 

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

River Chandler

谢谢,我会更努力学习工作的!!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值