AI 之路——数据分析（2）利用Pandas进行数据清清洗

Robin_Pi

于 2020-01-04 18:36:39 发布

阅读量409

点赞数

分类专栏： Numpy-Pandas-Matplotlib 机器学习之路数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Robin_Pi/article/details/103836194

版权

数据分析同时被 3 个专栏收录

36 篇文章 1 订阅

订阅专栏

机器学习之路

27 篇文章 2 订阅

订阅专栏

Numpy-Pandas-Matplotlib

26 篇文章 2 订阅

订阅专栏

目录

数据清洗/数据预处理

数据清洗/数据预处理

1. 缺失值处理

1.1 缺失值

Pandas 中缺失值的表现方式有三种：

1）Python内置的None值

2）在pandas中，将缺失值表示为NA，表示不可用not available。

3）对于数值数据，pandas使用浮点值NaN（Not a Number）表示缺失数据。

后面出来数据，如果遇到错误：说什么foloat错误，那就是有缺失值，需要处理掉

所以，缺失值有3种：None，NA，NaN
(None是Python的一种数据类型，NaN是浮点类型)

1.2 缺失值查看

df.info()
df.isnull()

1.3 缺失值处理

对于缺失值（None，NA，NaN），有两种处理办法：
① 删除包含缺失值的行/列
② 对缺失值进行填充/替代

删除 dropna()

在 Series 中使用，它会返回所有非空数据及其索引值。
对于 DataFrame，默认会删除所有出现缺失值的行，如需要删除列，需要传入参数 axis=1，若只想删除一行/列全部为空值的对象，可以传入 how=’ all ’
填充 fillna()

fillna()中可以选择的参数很多，比如用一个常数，也可以使用中位数、众数、平均数等统计学的值，也可以向上向下取相邻的一个非空值进行缺失值填充。

2. 处理重复值

drop_duplicates()

3. 数据类型转换

数据类型查看

整体df 查看：df.info( )
单列 series 查看：series.dtype

数据类型转换

df.astype()

注：Pandas 数据类型
在这里插入图片描述

4. 数据排序

df.sort_values()
df.sort_index()
记得使用 df.reset_index() 恢复索引排序

5. 异常值处理

发现异常值
判断标准：
①行业经验
②箱型图上下边缘的点
③3 西格玛原则

具体实现可以通过 df.describe() 观察也可以通过箱型图的绘制等。

处理异常值
① 删除：过滤删除行
② 填充： replace( )
③ 研究异常值

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AI 之路——数据分析（2）利用Pandas进行数据清清洗

数据预处理1. 缺失值处理缺失值python缺失值有3种：1）Python内置的None值2）在pandas中，将缺失值表示为NA，表示不可用not available。3）对于数值数据，pandas使用浮点值NaN（Not a Number）表示缺失数据。后面出来数据，如果遇到错误：说什么foloat错误，那就是有缺失值，需要处理掉所以，缺失值有3种：None，NA，NaN(N...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。