pandas计算含缺失值中列平均值_详解Python数据分析--Pandas知识点

本文详细介绍了如何使用Pandas处理数据中的重复值、缺失值,并展示了填充、删除和保留缺失值的方法。此外,还涵盖了删除前后空格、查看数据类型、修改数据类型、字段抽取、字段拆分、字段命名、字段合并、字段删除、记录抽取以及记录合并等数据操作。
摘要由CSDN通过智能技术生成

本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘

1. 重复值的处理

利用drop_duplicates()函数删除数据表中重复多余的记录, 比如删除重复多余的ID.

import pandas as pd

df = pd.DataFrame({"ID": ["A1000","A1001","A1002", "A1002"],

"departmentId": [60001,60001, 60001, 60001]})

df.drop_duplicates()

a5ccaee35b896659463f1c9946e6cb90.png

2. 缺失值的处理

缺失值是数据中因缺少信息而造成的数据聚类, 分组, 截断等

2.1 缺失值产生的原因

主要原因可以分为两种: 人为原因和机械原因.

1) 人为原因: 由于人的主观失误造成数据的缺失, 比如数据录入人员的疏漏;

2) 机械原因: 由于机械故障导致的数据收集或者数据保存失败从而造成数据的缺失.

2.2 缺失值的处理方式

缺失值的处理方式通常有三种: 补齐缺失值, 删除缺失值, 删除缺失值, 保留缺失值.

1) 补齐缺失值: 使用计算出来的值去填充缺失值, 例如样本平均值.

使用fillna()函数对缺失值进行填充, 使用mean()函数计算样本平均值.

import pandas as pd

import numpy as np

df = pd.DataFrame({'ID':['A10001', 'A10002', 'A10003', 'A10004'],

"Salary":[11560, np.NaN, 12988,12080]})

#用Salary字段的样本均值填充缺失值

df["Salary"] = df["Salary"].fillna(df["Salary"].mean())

df

c0778d0b3418e9722c2044c59062bd61.png

2) 删除缺失值: 当数据量大时且缺失值占比较小可选用删除缺失值的记录.

示例: 删除entrytime中缺失的值,采用dropna函数对缺失值进行删除:

import pandas as pd

df = pd.DataFrame({"ID": ["A1000","A1001","A1002"],

"entrytime": ["2015-05-06",pd.NaT,"2016-07-01" ]})

df.dropna()

5d2bdf99080c75c01c2fefe98b33457e.png

3) 保留缺失值.

3. 删除前后空格

使用strip()函数删除前后空格.

import pandas as pd

df = pd.DataFrame({"ID": ["A1000","A1001","A1002"],<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值