工具篇:EXCEL与python的对比 如何清洗数据表
第3章 数据表清洗
本章介绍的是对数据表中的问题进行清洗
主要内容包括对空值、大小写问题、数据格式和重复值的处理。
这里不包含对数据间的逻辑验证。
1. 处理空值(删除或填充)
我们在创建数据表的时候在price字段中故意设置了几个NA值。
对于空值的处理方式有很多种,可以直接删除包含空值的数据,也可以对空值进行填充,比如用0填充或者用均值填充。还可以根据不同字段的逻辑对空值进行推算。
Excel中可以通过“查找和替换”功能对空值进行处理,将空值统一替换为0或均值。也可以通过“定位”空值来实现
Python中处理空值的方法比较灵活,可以使用 Dropna函数用来删除数据表中包含空值的数据,也可以使用fillna函数对空值进行填充。
下面的代码和结果中可以看到使用dropna函数后,包含NA值的两个字段已经不见了。返回的是一个不包含空值的数据表
#删除数据表中含有空值的行
df.dropna(how='any')
除此之外也可以使用数字对空值进行填充,下面的代码使用fillna函数对空值字段填充数字0。
#使用数字0填充数据表中空值
df.fillna(value=0)
我们选择填充的方式来处理空值,使用price列的均值来填充NA字段,同样使用fillna函数,
在要填充的数值中使用mean函数先计算price列当前的均值,然后使用这个均值对NA进行填充。
可以看到两个空值字段显示为3299.5
#使用price均值对NA进行填充
df['price'].fillna(df['price'].mean())
0 1200.0
1 3299.5
2 2133.0
3 5433.0
4 3299.5
5 4432.0
Name: price, dtype: float64
2. 清理空格
excel清洗空格,也是使用检索替换的方法
除了空值,字符中的空格也是数据清洗中一个常见的问题,下面是清除字符中空格的代码。
#清除city字段中的字符空格
df['city']=df['city'].map(str.strip)
3. 大小写转换
在英文字段中,字母的大小写不统一也是一个常见的问题。
Excel中有UPPER,LOWER等函数
Python中也有同名函数用来解决大小写的问题。在数据表的city列中就存在这样的问题。我们将city列的所有字母转换为小写。下面是具体的代码和结果。
city列大小写转换
df['city']=df['city'].str.lower()
4. 更改数据格式
Excel中通过“设置单元格格式”功能可以修改数据格式
Python中通过astype函数用来修改数据格式
Python中dtype是查看数据格式的函数,与之对应的是astype函数,用来更改数据格式。
下面的代码中将price字段的值修改为int格式。
#更改数据格式
df['price'].astype('int')
0 1200
1 3299
2 2133
3 5433
4 3299
5 4432
Name: price, dtype: int32
5. 更改列名称
excel直接修改表头即可
python中使用Rename是更改列名称的函数,我们将来数据表中的category列更改为category-size。
下面是具体的代码和更改后的结果。
#更改列名称
df.rename(columns={'category': 'category-size'})
6. 删除重复值
很多数据表中还包含重复值的问题
Excel的数据目录下有“删除重复项”的功能,可以用来删除数据表中的重复值。默认Excel会保留最先出现的数据,删除后面重复出现的数据
Python中使用drop_duplicates函数删除重复值。我们以数据表中的city列为例,city字段中存在重复值。默认情况下drop_duplicates()将删除后出现的重复值(与Excel逻辑一致)。增加keep='last'参数后将删除最先出现的重复值,保留最后的值。下面是具体的代码和比较结果。
原始的city列中beijing存在重复,分别在第一位和最后一位。
df['city']
0 beijing
1 sh
2 guangzhou
3 shenzhen
4 shanghai
5 beijing
Name: city, dtype: object
使用默认的drop_duplicates()函数删除重复值,从结果中可以看到第一位的beijing被保留,最后出现的beijing被删除。
#删除后出现的重复值
df['city'].drop_duplicates()
0 beijing
1 sh
2 guangzhou
3 shenzhen
4 shanghai
Name: city, dtype: object
设置keep='last‘’参数后,与之前删除重复值的结果相反,第一位出现的beijing被删除,保留了最后一位出现的beijing。
#删除先出现的重复值
df['city'].drop_duplicates(keep='last')
1 sh
2 guangzhou
3 shenzhen
4 shanghai
5 beijing
Name: city, dtype: objec
7. 数值修改及替换
数据清洗中最后一个问题是数值修改或替换,Excel中使用“查找和替换”功能就可以实现数值的替换
Python中使用replace函数实现数据替换。数据表中city字段上海存在两种写法,分别为shanghai和SH。
我们使用replace函数对SH进行替换。
#数据替换
df['city'].replace('sh', 'shanghai')
0 beijing
1 shanghai
2 guangzhou
3 shenzhen
4 shanghai
5 beijing
Name: city, dtype: object