pandas计算含缺失值中列平均值_详解Python数据分析--Pandas知识点

最新推荐文章于 2022-12-07 10:25:54 发布

weixin_39537680

最新推荐文章于 2022-12-07 10:25:54 发布

阅读量3.9k

点赞数 3

文章标签： pandas计算含缺失值中列平均值

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39537680/article/details/114354772

版权

本文详细介绍了如何使用Pandas处理数据中的重复值、缺失值，并展示了填充、删除和保留缺失值的方法。此外，还涵盖了删除前后空格、查看数据类型、修改数据类型、字段抽取、字段拆分、字段命名、字段合并、字段删除、记录抽取以及记录合并等数据操作。

摘要由CSDN通过智能技术生成

本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘

1. 重复值的处理

利用drop_duplicates()函数删除数据表中重复多余的记录, 比如删除重复多余的ID.

import pandas as pd

df = pd.DataFrame({"ID": ["A1000","A1001","A1002", "A1002"],

"departmentId": [60001,60001, 60001, 60001]})

df.drop_duplicates()

2. 缺失值的处理

缺失值是数据中因缺少信息而造成的数据聚类, 分组, 截断等

2.1 缺失值产生的原因

主要原因可以分为两种: 人为原因和机械原因.

1) 人为原因: 由于人的主观失误造成数据的缺失, 比如数据录入人员的疏漏;

2) 机械原因: 由于机械故障导致的数据收集或者数据保存失败从而造成数据的缺失.

2.2 缺失值的处理方式

缺失值的处理方式通常有三种: 补齐缺失值, 删除缺失值, 删除缺失值, 保留缺失值.

1) 补齐缺失值: 使用计算出来的值去填充缺失值, 例如样本平均值.

使用fillna()函数对缺失值进行填充, 使用mean()函数计算样本平均值.

import pandas as pd

import numpy as np

df = pd.DataFrame({'ID':['A10001', 'A10002', 'A10003', 'A10004'],

"Salary":[11560, np.NaN, 12988,12080]})

#用Salary字段的样本均值填充缺失值

df["Salary"] = df["Salary"].fillna(df["Salary"].mean())

df

2) 删除缺失值: 当数据量大时且缺失值占比较小可选用删除缺失值的记录.

示例: 删除entrytime中缺失的值,采用dropna函数对缺失值进行删除:

import pandas as pd

df = pd.DataFrame({"ID": ["A1000","A1001","A1002"],

"entrytime": ["2015-05-06",pd.NaT,"2016-07-01" ]})

df.dropna()

3) 保留缺失值.

3. 删除前后空格

使用strip()函数删除前后空格.

import pandas as pd

df = pd.DataFrame({"ID": ["A1000","A1001","A1002"],<

最低0.47元/天解锁文章

weixin_39537680

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。