数据清洗挑战Day1 | 手把手教你处理数据集中的缺失值

最新推荐文章于 2022-10-21 15:15:10 发布

python爬虫人工智能大数据

最新推荐文章于 2022-10-21 15:15:10 发布

阅读量515

点赞数

今天是第一天，任务是处理数据集中的缺失值。操作步骤如下：1、观察数据 2、观察缺失值的数量 3、分析出现缺失值的原因 4、剔除缺失值 5、自动补全缺失值

我们一步一步来进行操作～

观察数据

我们使用的数据集是：旧金山建筑许可证数据集，获取方式见文末哦~

1、引入 pandas 和 numpy 包，从给出的路径读数据集

# 导入我们使用的模块
import pandas as pd
import numpy as np

# 读取我们的数据
sf_permits = pd.read_csv("../input/building7796/Building_Permits.csv")

# 设置种子
np.random.seed(0)

2、然后用 sample(10) 方法随机抽取数据集中的 10 条数据，结果中有很多数据格被标记了 "NaN" ，这些就是我们需要处理的缺失值。

sf_permits.sample(10)

观察缺失值数量

3、现在我们知道了数据集中存在缺失值，再来看看每一个 column 下缺失值的具体数量（由于 column 过多我们只选了前 15 列）。

# 获取每一列的缺失值
missing_values_count = sf_permits.isnull().sum()

# 查看前15列的缺失值
missing_values_count[0:15]

4、然后可以进一步看看数据集中缺失值的数目占总数的百分比，结果约为 26.26%，四分之一的数据都缺失了！

# 一共有多少缺失值？
total_cells = np.product(sf_permits.shape)
total_missing = missing_values_count.sum()

# 缺失值的百分比
(total_missing/total_cells) * 100

分析出现缺失值的原因

如果一个数据值缺失是因为它根本不存在，那么我们就没有必要去猜它可能的值，我们需要做的就是让它继续为 NaN；如果一个数据值缺失是因为没有被记录，我们就应该基于与它同行同列的其他值，来猜想它的可能值。

5、拿当前的数据集做例子，我们来看一下 Street Number Suffix 和 Zipcode 的缺失值：

missing_values_count = sf_permits.isnull().sum()
missing_values_count[['Street Number Suffix', 'Zipcode']]

我们看到 Street Number Suffix 下有大量缺失值，由于它对地址来说并不是一个普遍存在的数据，所以我猜想它的缺失值根本不存在；有少量的 Zipcode 数据缺失，由于每个地址的邮编一定存在，所以它应该是没有被记录。

剔除缺失值

如果你实在急于做分析，可以采取的方案之一就是剔除掉任何包含缺失值的行或列。但这种方法是并不推荐，要想得到更好的分析结果，还是要先合理地处理缺失值。

如果确定想要剔除掉含有缺失值的数据行，可以直接使用 pandas 的 dropna() 方法：sf_permits.dropna() 但是我们得到的结果是 0 rows × 43 columns，因为每一行都存在缺失值！

6、除去含有缺失值的数据列：

# 除去至少有一个缺失值的列
columns_with_na_dropped = sf_permits.dropna(axis=1)

7、看一下剔除空值前后的 column 数目对比：

print("Columns in original dataset: %d \n" % sf_permits.shape[1])
print("Columns with na's dropped: %d" % columns_with_na_dropped.shape[1])

自动补全缺失值

除了直接 drop 掉含有缺失值的行或列，另一个方案是去补全缺失的值。

8、这部分我们先截取一部分 column 的数据进行处理，便于观察。

subset_sf_permits = sf_permits.loc[:,"Street Number Suffix":"Issued Date"].head()
subset_sf_permits

9、如果数据的类型都是数字，我们可以考虑把所有的缺失值都填为 0:

subset_sf_permits.fillna(0)

10、但该数据集中，有 string 型的数据，还有另一种选择就是将空值置为与它相邻的下一行对应的数据，没有下一行数据就置为 0：

subset_sf_permits.fillna(method = "bfill", axis=0).fillna("0")

总结

处理不同类型的数据集，需要采取不同的方法，还可以用相应 column 的平均值来补全该列的缺失值等。

这就是 5 天挑战的第一天的内容，总地来说是非常基础的清洗数据方法，完毕～

python爬虫人工智能大数据

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
数据清洗挑战Day1 | 手把手教你处理数据集中的缺失值

今天是第一天，任务是处理数据集中的缺失值。操作步骤如下：1、观察数据 2、观察缺失值的数量 3、分析出现缺失值的原因 4、剔除缺失值 5、自动补全缺失值...
复制链接

扫一扫