用Python进行数据清洗，这7种方法你一定要掌握

2301_79099460

于 2024-04-16 13:24:44 发布

阅读量1k

点赞数 11

分类专栏：程序员文章标签： python 开发语言

本文链接：https://blog.csdn.net/2301_79099460/article/details/137821616

版权

程序员专栏收录该内容

267 篇文章 4 订阅

订阅专栏

3 2 3 Miki 77.0

4 1 4 Sully 77.0

5 2 5 Rose NaN

发现重复数据通过duplicated方法完成，如下所示，可以通过该方法查看重复的数据。

sample[sample.duplicated()]

group id name score

1 1 1 Bob 99.0

需要去重时，可drop_duplicates方法完成：

sample.drop_duplicates()

group id name score

0 1 1 Bob 99.0

2 1 1 Mark 87.0

3 2 3 Miki 77.0

4 1 4 Sully 77.0

5 2 5 Rose NaN

drop_duplicates方法还可以按照某列去重，例如去除id列重复的所有记录：

sample.drop_duplicates(‘id’)

group id name score

0 1 1 Bob 99.0

3 2 3 Miki 77.0

4 1 4 Sully 77.0

5 2 5 Rose NaN

02 缺失值处理

缺失值是数据清洗中比较常见的问题，缺失值一般由NA表示，在处理缺失值时要遵循一定的原则。

首先，需要根据业务理解处理缺失值，弄清楚缺失值产生的原因是故意缺失还是随机缺失，再通过一些业务经验进行填补。一般来说当缺失值少于20%时，连续变量可以使用均值或中位数填补；分类变量不需要填补，单算一类即可，或者也可以用众数填补分类变量。

当缺失值处于20%-80%之间时，填补方法同上。另外每个有缺失值的变量可以生成一个指示哑变量，参与后续的建模。当缺失值多于80%时，每个有缺失值的变量生成一个指示哑变量，参与后续的建模，不使用原始变量。

在下图中展示了中位数填补缺失值和缺失值指示变量的生成过程。

缺失值填补示例

Pandas提供了fillna方法用于替换缺失值数据，其功能类似于之前的replace方法，例如对于如下数据：

sample

group id name score

0 1.0 1.0 Bob 99.0

1 1.0 1.0 Bob NaN

2 NaN 1.0 Mark 87.0

3 2.0 3.0 Miki 77.0

4 1.0 4.0 Sully 77.0

5 NaN NaN NaN NaN

分步骤进行缺失值的查看和填补如下：

1. 查看缺失情况

在进行数据分析前，一般需要了解数据的缺失情况，在Python中可以构造一个lambda函数来查看缺失值，该lambda函数中，sum(col.isnull())表示当前列有多少缺失，col.size表示当前列总共多少行数据：

sample.apply(lambda col:sum(col.isnull())/col.size)

group 0.333333

id 0.166667

name 0.166667

score 0.333333

dtype: float64

2. 以指定值填补

pandas数据框提供了fillna方法完成对缺失值的填补，例如对sample表的列score填补缺失值，填补方法为均值：

sample.score.fillna(sample.score.mean())

0 99.0

1 85.0

2 87.0

3 77.0

4 77.0

5 85.0

Name: score, dtype: float64

当然还可以以分位数等方法进行填补：

sample.score.fillna(sample.score.median())

0 99.0

1 82.0

2 87.0

3 77.0

4 77.0

5 82.0

Name: score, dtype: float64

3. 缺失值指示变量

pandas数据框对象可以直接调用方法isnull产生缺失值指示变量，例如产生score变量的缺失值指示变量：

sample.score.isnull()

0 False

1 True

2 False

3 False

4 False

5 True

Name: score, dtype: bool

若想转换为数值0，1型指示变量，可以使用apply方法，int表示将该列替换为int类型。

sample.score.isnull().apply(int)

0 0

1 1

2 0

3 0

4 0

5 1

Name: score, dtype: int64

03 噪声值处理

噪声值指数据中有一个或几个数值与其他数值相比差异较大，又称为异常值、离群值(outlier)。

对于大部分的模型而言，噪声值会严重干扰模型的结果，并且使结论不真实或偏颇，如图5-9。需要在数据预处理的时候清除所以噪声值。噪声值的处理方法很多，对于单变量，常见的方法有盖帽法、分箱法；多变量的处理方法为聚类法。下面进行详细介绍：

‘ ’

1. 盖帽法

盖帽法将某连续变量均值上下三倍标准差范围外的记录替换为均值上下三倍标准差值，即盖帽处理

在这里插入图片描述

Python中可自定义函数完成盖帽法。如下所示，参数x表示一个pd.Series列，quantile指盖帽的范围区间，默认凡小于百分之1分位数和大于百分之99分位数的值将会被百分之1分位数和百分之99分位数替代：

def cap(x,quantile=[0.01,0.99]):

“”"盖帽法处理异常值

Args：

x：pd.Series列，连续变量

quantile：指定盖帽法的上下分位数范围

“”"

生成分位数

Q01,Q99=x.quantile(quantile).values.tolist()

替换异常值为指定的分位数

if Q01 > x.min():

x = x.copy()

x.loc[x<Q01] = Q01

if Q99 < x.max():

x = x.copy()

x.loc[x>Q99] = Q99

return(x)

现生成一组服从正态分布的随机数，sample.hist表示产生直方图，更多绘图方法会在下一章节进行讲解：

sample = pd.DataFrame({‘normal’:np.random.randn(1000)})

sample.hist(bins=50)

在这里插入图片描述

对pandas数据框所有列进行盖帽法转换，可以以如下写法，从直方图对比可以看出盖帽后极端值频数的变化。

new = sample.apply(cap,quantile=[0.01,0.99])

new.hist(bins=50)

在这里插入图片描述

2. 分箱法

分箱法通过考察数据的“近邻”来光滑有序数据的值。有序值分布到一些桶或箱中。

分箱法包括等深分箱：每个分箱中的样本量一致；等宽分箱：每个分箱中的取值范围一致。直方图其实首先对数据进行了等宽分箱，再计算频数画图。

比如价格排序后数据为：4、8、15、21、21、24、25、28、34

将其划分为（等深）箱：

箱1：4、8、15
箱2：21、21、24
箱3：25、28、34

将其划分为（等宽）箱：

箱1：4、8
箱2：15、21、21、24
箱3：25、28、34

分箱法将异常数据包含在了箱子中，在进行建模的时候，不直接进行到模型中，因而可以达到处理异常值的目的。

pandas的qcut函数提供了分箱的实现方法，下面介绍如何具体实现。

**等宽分箱：**qcut函数可以直接进行等宽分箱，此时需要的待分箱的列和分箱个数两个参数，如下所示，sample数据的int列为从10个服从标准正态分布的随机数：

sample =pd.DataFrame({‘normal’:np.random.randn(10)})

sample

normal

0 0.065108

1 -0.597031

2 0.635432

3 -0.491930

4 -1.894007

5 1.623684

6 1.723711

7 -0.225949

8 -0.213685

9 -0.309789

现分为5箱，可以看到，结果是按照宽度分为5份，下限中，cut函数自动选择小于列最小值一个数值作为下限，最大值为上限，等分为五分。结果产生一个Categories类的列，类似于R中的factor，表示分类变量列。

此外弱数据存在缺失，缺失值将在分箱后将继续保持缺失，如下所示：

pd.cut(sample.normal,5)

0 (-0.447, 0.277]

1 (-1.17, -0.447]

2 (0.277, 1.0]

3 (-1.17, -0.447]

4 (-1.898, -1.17]

5 (1.0, 1.724]

6 (1.0, 1.724]

7 (-0.447, 0.277]

8 (-0.447, 0.277]

9 (-0.447, 0.277]
自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上前端开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以扫码获取！！！（备注Python）

中…(img-cbUpKTQU-1713245072416)]

[外链图片转存中…(img-G1ZXUUMU-1713245072416)]

[外链图片转存中…(img-K9FlokTV-1713245072417)]

[外链图片转存中…(img-B8JuGizn-1713245072417)]

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上前端开发知识点，真正体系化！

如果你觉得这些内容对你有帮助，可以扫码获取！！！（备注Python）

2301_79099460

关注

11
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
用Python进行数据清洗，这7种方法你一定要掌握

中…(img-cbUpKTQU-1713245072416)][外链图片转存中…(img-G1ZXUUMU-1713245072416)][外链图片转存中…(img-K9FlokTV-1713245072417)][外链图片转存中…(img-B8JuGizn-1713245072417)]
复制链接

扫一扫