Python中的Pandas详解-6-处理Nan的思路

最新推荐文章于 2024-06-09 13:19:08 发布

Python_P叔

最新推荐文章于 2024-06-09 13:19:08 发布

阅读量952

点赞数 11

文章标签： python pandas 开发语言

本文链接：https://blog.csdn.net/Saki_Python/article/details/134569458

版权

处理Nan的思路

正如之前提到的，在能够使用大型数据集训练学习算法之前，我们通常需要先清理数据。也就是说，我们需要通过某个方法检测并更正数据中的错误。虽然任何给定数据集可能会出现各种糟糕的数据，例如离群值或不正确的值，但是我们几乎始终会遇到的糟糕数据类型是缺少值。正如之前看到的，Pandas 会为缺少的值分配 NaN 值。在这，我们将学习如何检测和处理 NaN 值。首先，我们将创建一个具有一些 NaN 值的 DataFrame。

# We create a list of Python dictionaries
items2 = [{'bikes': 20, 'pants': 30, 'watches': 35, 'shirts': 15, 'shoes':8, 'suits':45},
{'watches': 10, 'glasses': 50, 'bikes': 15, 'pants':5, 'shirts': 2, 'shoes':5, 'suits':7},
{'bikes': 20, 'pants': 30, 'watches': 35, 'glasses': 4, 'shoes':10}]

# We create a DataFrame  and provide the row index
store_items = pd.DataFrame(items2, index = ['store 1', 'store 2', 'store 3'])

# We display the DataFrame
store_items

在这里插入图片描述

可以清晰地看出，我们创建的 DataFrame 具有 3 个 NaN 值：商店 1 中有一个，商店 3 中有两个。但是，如果我们向 DataFrame 中加载非常庞大的数据集，可能有数百万条数据，那么就不太容易直观地发现 NaN 值的数量。对于这些情形，我们结合使用多种方法来计算数据中的 NaN 值的数量。以下示例同时使用了 .isnull() 和 sum() 方法来计算我们的 DataFrame 中的 NaN 值的数量。

# We count the number of NaN values in store_items
x =  store_items.isnull().sum().sum()

# We print x
print('Number of NaN values in our DataFrame:', x)

umber of NaN values in our DataFrame: 3

在上述示例中，.isnull() 方法返回一个大小和 store_items 一样的布尔型 DataFrame，并用 True 表示具有 NaN 值的元素，用 False 表示非 NaN 值的元素。我们来看一个示例ÿ

最低0.47元/天解锁文章

Python_P叔

关注

11
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
Python中的Pandas详解-6-处理Nan的思路

正如之前提到的，在能够使用大型数据集训练学习算法之前，我们通常需要先清理数据。也就是说，我们需要通过某个方法检测并更正数据中的错误。虽然任何给定数据集可能会出现各种糟糕的数据，例如离群值或不正确的值，但是我们几乎始终会遇到的糟糕数据类型是缺少值。正如之前看到的，Pandas 会为缺少的值分配NaN值。在这，我们将学习如何检测和处理NaN值。首先，我们将创建一个具有一些NaN值的 DataFrame。可以清晰地看出，我们创建的 DataFrame 具有 3 个NaN值：商店 1 中有一个，商店 3 中有两个。
复制链接

扫一扫