python对excel数据清洗_工具篇：EXCEL与python的对比如何清洗数据表.md

最新推荐文章于 2024-09-10 23:42:25 发布

weixin_39929715

最新推荐文章于 2024-09-10 23:42:25 发布

阅读量799

点赞数

文章标签： python对excel数据清洗

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39929715/article/details/113979610

版权

本文对比了Excel和Python在数据清洗方面的操作，包括处理空值、清理空格、大小写转换、更改数据格式、重命名列、删除重复值以及数值替换等。示例展示了Python中如何使用pandas库进行高效的数据清洗。

摘要由CSDN通过智能技术生成

工具篇：EXCEL与python的对比如何清洗数据表

第3章数据表清洗

本章介绍的是对数据表中的问题进行清洗

主要内容包括对空值、大小写问题、数据格式和重复值的处理。

这里不包含对数据间的逻辑验证。

1. 处理空值(删除或填充)

我们在创建数据表的时候在price字段中故意设置了几个NA值。

对于空值的处理方式有很多种，可以直接删除包含空值的数据，也可以对空值进行填充，比如用0填充或者用均值填充。还可以根据不同字段的逻辑对空值进行推算。

Excel中可以通过“查找和替换”功能对空值进行处理，将空值统一替换为0或均值。也可以通过“定位”空值来实现

Python中处理空值的方法比较灵活，可以使用 Dropna函数用来删除数据表中包含空值的数据，也可以使用fillna函数对空值进行填充。

下面的代码和结果中可以看到使用dropna函数后，包含NA值的两个字段已经不见了。返回的是一个不包含空值的数据表

#删除数据表中含有空值的行

df.dropna(how='any')

除此之外也可以使用数字对空值进行填充，下面的代码使用fillna函数对空值字段填充数字0。

#使用数字0填充数据表中空值

df.fillna(value=0)

我们选择填充的方式来处理空值，使用price列的均值来填充NA字段，同样使用fillna函数，

在要填充的数值中使用mean函数先计算price列当前的均值，然后使用这个均值对NA进行填充。

可以看到两个空值字段显示为3299.5

#使用price均值对NA进行填充

df['price'].fillna(df['price'].mean())

0 1200.0

1 3299.5

2 2133.0

3 5433.0

4 3299.5

5 4432.0

Name: price, dtype: float64

2. 清理空格

excel清洗空格，也是使用检索替换的方法

除了空值，字符中的空格也是数据清洗中一个常见的问题，下面是清除字符中空格的代码。

#清除city字段中的字符空格

df['city']=df['city'].map(str.strip)

3. 大小写转换

在英文字段中，字母的大小写不统一也是一个常见的问题。

Excel中有UPPER，LOWER等函数

Python中也有同名函数用来解决大小写的问题。在数据表的city列中就存在这样的问题。我们将city列的所有字母转换为小写。下面是具体的代码和结果。

city列大小写转换

df['city']=df['city'].str.lower()

4. 更改数据格式

Excel中通过“设置单元格格式”功能可以修改数据格式

Python中通过astype函数用来修改数据格式

Python中dtype是查看数据格式的函数，与之对应的是astype函数，用来更改数据格式。

下面的代码中将price字段的值修改为int格式。

#更改数据格式

df['price'].astype('int')

0 1200

1 3299

2 2133

3 5433

4 3299

5 4432

Name: price, dtype: int32

5. 更改列名称

excel直接修改表头即可

python中使用Rename是更改列名称的函数，我们将来数据表中的category列更改为category-size。

下面是具体的代码和更改后的结果。

#更改列名称

df.rename(columns={'category': 'category-size'})

6. 删除重复值

很多数据表中还包含重复值的问题

Excel的数据目录下有“删除重复项”的功能，可以用来删除数据表中的重复值。默认Excel会保留最先出现的数据，删除后面重复出现的数据

Python中使用drop_duplicates函数删除重复值。我们以数据表中的city列为例，city字段中存在重复值。默认情况下drop_duplicates()将删除后出现的重复值(与Excel逻辑一致)。增加keep='last'参数后将删除最先出现的重复值，保留最后的值。下面是具体的代码和比较结果。

原始的city列中beijing存在重复，分别在第一位和最后一位。

df['city']

0 beijing

1 sh

2 guangzhou

3 shenzhen

4 shanghai

5 beijing

Name: city, dtype: object

使用默认的drop_duplicates()函数删除重复值，从结果中可以看到第一位的beijing被保留，最后出现的beijing被删除。

#删除后出现的重复值

df['city'].drop_duplicates()

0 beijing

1 sh

2 guangzhou

3 shenzhen

4 shanghai

Name: city, dtype: object

设置keep='last‘’参数后，与之前删除重复值的结果相反，第一位出现的beijing被删除，保留了最后一位出现的beijing。

#删除先出现的重复值

df['city'].drop_duplicates(keep='last')

1 sh

2 guangzhou

3 shenzhen

4 shanghai

5 beijing

Name: city, dtype: objec

7. 数值修改及替换

数据清洗中最后一个问题是数值修改或替换，Excel中使用“查找和替换”功能就可以实现数值的替换

Python中使用replace函数实现数据替换。数据表中city字段上海存在两种写法，分别为shanghai和SH。

我们使用replace函数对SH进行替换。

#数据替换

df['city'].replace('sh', 'shanghai')

0 beijing

1 shanghai

2 guangzhou

3 shenzhen

4 shanghai

5 beijing

Name: city, dtype: object

weixin_39929715

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。