进行数据清洗_Pandas进行数据清洗详解

最新推荐文章于 2023-04-21 11:15:00 发布

华笠医生

最新推荐文章于 2023-04-21 11:15:00 发布

阅读量255

点赞数

文章标签：进行数据清洗

本文链接：https://blog.csdn.net/weixin_42128315/article/details/112568949

版权

作者：Zarten 知乎专栏：python数据分析与挖掘深入详解 知乎ID： Zarten 简介：互联网一线工作者，尊重原创并欢迎评论留言指出不足之处，也希望多些关注和点赞是给作者最好的鼓励！

概述

在做数据分析的工作中，大部分的时间都是在处理数据清洗及准备阶段。下面将介绍一些数据清洗的常用手段，包括处理缺失数据、重复数据、数据转换等。

去除缺失数据

import numpy as np
import pandas as pd

zarten_df = pd.DataFrame([[1,2,np.nan],[4,5,6],[np.nan,8,9]])

可以使用DataFrame对象的isnull()方法查看是否为缺失值

删除缺失值使用DataFrame对象的dropna()函数

删除带有NaN的整行

使用dropna()，参数axis=0，也是默认值

删除带有NaN的整列

使用参数axis=1即可

删除整行每个值都是NaN

只需传入参数 how='all'即可

从上图看到，由于没有整行都是NaN的值，所以还是原数据。

填充缺失数据

使用函数fillna()

import numpy as np
import pandas as pd

zarten_df = pd.DataFrame([[1,2,np.nan],[4,5,6],[np.nan,8,9]])

传入一个数值

传入一个数值后NaN被这个数值所填充

传入一个字典

传入一个字典可以指定不同的列填充不同的值

fillna()函数还有其他参数，如下：

inplace参数：为True时，可以就地改变原数据

method参数：填充方式，例如向上填充等

limit参数：限制填充前几行

更多用法，请查看官方文档，这里不再一一阐述。

缺失数据相关函数

重复行处理

有时很多行的数据是一模一样的，有可能需要进一步处理。

import numpy as np
import pandas as pd

zarten_df = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9],[88,88,88],[88,88,88]])

查看重复行

使用duplicated()函数，若有出现了跟之前一样的行，则将出现的这一行标记为True

指定列进行重复项判断

上面例子是全部列，下面将介绍部分列的判断

只需传入列名即可

import numpy as np
import pandas as pd

zarten_df = pd.DataFrame([[1,2,3],[4,5,6],[7,8,6],[88,88,88],[88,88,88]])

反向处理重复行

上面例子看到，若出现重复行，是最后一样标记为True。若传入参数keep='last'，则将第一个出现重复行标记为True

删除重复行

删除标记为True 的重复行

使用函数drop_duplicates()函数，此函数的参数跟上面的duplicated()一样，这里将不再描述。

替换值

可以使用replace()函数

import pandas as pd

zarten_df = pd.DataFrame([[1,2,3],[4,999,6],[7,8,-888]])

替换某个值

替换多个值

可以使用列表或字典，下面演示字典

更多技术方法将在后面章节介绍。

华笠医生

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
进行数据清洗_Pandas进行数据清洗详解

作者：Zarten知乎专栏：python数据分析与挖掘深入详解知乎ID： Zarten简介：互联网一线工作者，尊重原创并欢迎评论留言指出不足之处，也希望多些关注和点赞是给作者最好的鼓励！概述在做数据分析的工作中，大部分的时间都是在处理数据清洗及准备阶段。下面将介绍一些数据清洗的常用手段，包括处理缺失数据、重复数据、数据转换等。去除缺失数据import numpy as npimport p...
复制链接

扫一扫