【Pandas】深入解析pandas中的统计汇总函数`fillna()`

云天徽上

已于 2024-06-21 14:44:14 修改

阅读量729

点赞数 10

分类专栏： Pandas 文章标签： pandas python numpy 机器学习深度学习

于 2024-06-20 16:14:03 首次发布

本文链接：https://blog.csdn.net/qq_38614074/article/details/139835905

版权

Pandas 专栏收录该内容

83 篇文章 1 订阅

订阅专栏

在这里插入图片描述

【Pandas】深入解析pandas中的统计汇总函数`fillna()`

🌈 欢迎莅临我的个人主页👈这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！🎇
🎓 博主简介：
我是云天徽上，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。
🔧 技术专长：
我熟练掌握Python编程语言，并深入研究了机器学习和NLP的相关算法和模型。无论是文本分类、情感分析，还是实体识别、机器翻译，我都能够熟练运用相关技术，解决实际问题。此外，我还对深度学习框架如TensorFlow和PyTorch有一定的了解和应用经验。
📝 博客风采：
在博客中，我分享了自己在Python编程、机器学习和NLP领域的实践经验和心得体会。我坚信知识的力量，希望通过我的分享，能够帮助更多的人掌握这些技术，并在实际项目中发挥作用。机器学习博客专栏几乎都上过热榜第一：https://blog.csdn.net/qq_38614074/article/details/137827304，欢迎大家订阅
💡 服务项目：
除了博客分享，我还提供NLP相关的技术咨询、项目开发和个性化解决方案等服务。如果您在机器学习、NLP项目中遇到难题，或者对某个算法和模型有疑问，欢迎随时联系我，我会尽我所能为您提供帮助，个人微信(xf982831907),添加说明来意。

在数据分析的过程中，缺失值（NaN或None）是一个常见的问题。这些缺失值可能是由于数据收集过程中的错误、遗漏或其他原因造成的。缺失值的存在可能会影响数据分析的准确性和可靠性。为了解决这个问题，Pandas库提供了fillna()函数，该函数允许我们根据指定的方法或值来填充DataFrame或Series中的缺失值。

1. `fillna()`函数的基本用法

fillna()函数是Pandas中用于填充缺失值的重要函数。其基本语法如下：

DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)
Series.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)

value：用于替换缺失值的值或值的字典。如果传递的是字典，则它必须为DataFrame的列名映射到替换值。
method：用于填充缺失值的方法。{‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}。这些方法分别是向后填充（bfill/backfill）、向前填充（ffill/pad）或者不使用这些方法（None）。
axis：指定沿哪个轴进行填充。对于DataFrame，默认为0（行），也可以为1（列）。对于Series，该参数无效。
inplace：如果为True，则直接修改原始DataFrame或Series，而不是返回一个新的对象。
limit：如果指定了方法，则此参数表示沿指定轴连续填充的最大数量。
downcast：如果可能，将较小的数据类型降级为整数/浮点数/无符号整数。

2. 使用`fillna()`的原因

缺失值的存在会对数据分析产生不利影响。它们可能导致统计汇总结果不准确，或者在建模时引入偏差。通过使用fillna()函数，我们可以填充缺失值，从而使数据集更加完整和可靠。

3. 示例代码与解析

示例 1：使用常量值填充缺失值

import pandas as pd

# 创建一个包含缺失值的DataFrame
df = pd.DataFrame({
    'A': [1, 2, None, 4],
    'B': [5, None, 7, 8],
    'C': [9, 10, 11, None]
})

# 使用常量值0填充缺失值
df_filled = df.fillna(value=0)
print(df_filled)

在这个例子中，我们使用了常量值0来填充所有缺失值。

示例 2：使用字典映射填充缺失值

# 使用字典映射为不同的列填充不同的值
df_filled_dict = df.fillna({'A': 0, 'B': 1, 'C': 2})
print(df_filled_dict)

在这个例子中，我们为不同的列指定了不同的填充值。

示例 3：使用前向填充（ffill）方法

# 使用前向填充（ffill）方法填充缺失值
df_filled_ffill = df.fillna(method='ffill')
print(df_filled_ffill)

在这个例子中，我们使用了前向填充（即使用前一个非缺失值来填充当前缺失值）的方法。

示例 4：使用后向填充（bfill）方法

# 使用后向填充（bfill）方法填充缺失值
df_filled_bfill = df.fillna(method='bfill')
print(df_filled_bfill)

在这个例子中，我们使用了后向填充（即使用后一个非缺失值来填充当前缺失值）的方法。

示例 5：限制填充的数量

# 限制前向填充的数量为1
df_filled_limit = df.fillna(method='ffill', limit=1)
print(df_filled_limit)

在这个例子中，我们限制了前向填充的数量为1，即每个缺失值最多只会被前一个非缺失值填充一次。

4. 替代方案与注意事项

虽然fillna()函数是处理缺失值的一种有效方法，但在某些情况下，直接填充缺失值可能不是最佳选择。以下是几种可能的替代方案：

删除包含缺失值的行或列：如果缺失值较多或缺失值对分析的影响较小，可以考虑使用dropna()函数删除包含缺失值的行或列。
使用插值法：对于时间序列数据或连续型数据，可以使用插值法（如线性插值、多项式插值等）来估算缺失值。Pandas中的interpolate()函数可以实现插值。
使用机器学习模型预测：对于复杂的数据集，可以训练机器学习模型来预测缺失值。这种方法通常需要额外的数据和计算资源。
保留缺失值：在某些情况下，缺失值本身可能包含有价值的信息。例如，在调查问卷中，某些问题的缺失回答可能意味着受访者不愿意回答或不知道答案。在这种情况下，可以考虑将缺失值视为一种特殊的类别或值。

注意事项

选择合适的填充方法：不同的填充方法可能会对结果产生不同的影响。在选择填充方法时，需要仔细考虑数据的性质、分析的目的以及缺失值对结果的影响。
避免过度填充：过度填充缺失值可能会导致数据失真或引入偏差。在填充缺失值时，需要谨慎选择填充方法和填充值，以避免对结果产生不良影响。
检查填充结果：在填充缺失值后，需要仔细检查填充结果是否合理和准确。可以使用可视化工具（如绘图库matplotlib）或统计方法（如描述性统计）来检查填充结果。
备份原始数据：在填充缺失值之前，最好先备份原始数据。这样，如果填充结果不理想或需要进一步分析，可以恢复到原始数据状态。

5. 结论

Pandas的fillna()函数提供了一种简单而强大的方式来处理数据中的缺失值。通过选择合适的填充方法和填充值，我们可以使数据集更加完整和可靠，从而提高数据分析的准确性和可靠性。然而，在填充缺失值时，我们需要谨慎选择填充方法和填充值，并仔细检查填充结果，以避免对结果产生不良影响。同时，我们也需要考虑其他可能的替代方案，如删除包含缺失值的行或列、使用插值法或机器学习模型预测等。