pandas缺失值处理

本文介绍了如何在Pandas中处理数据缺失值,包括使用`isnull()`检查缺失值,利用`fillna()`方法填充缺失值,如用平均值或中位数。还探讨了通过创建指示变量来标识缺失值,以及使用盖帽法处理异常值的方法。
摘要由CSDN通过智能技术生成

-- coding: utf-8 --

“”"
Created on Wed Feb 20 14:19:10 2019

@author: hypc
“”"

import pandas as pd
import numpy as np

data=pd.DataFrame({‘id’:[1,1,1,3,4,5],‘name’:[‘Bob’,‘Bob’,‘Mark’,‘Miki’,‘Sully’,‘Rose’],‘score’:[99,99,87,77,77,np.nan],‘group’:[1,1,1,2,1,2],})

#isnull()方法为查找缺省值
#在进行数据分析前,一般需要了解数据的缺失情况,在Python中可以构造一个lambda函数来查看缺失值
#该lambda函数中,sum(col.isnull())表示当前列有多少缺失,col.size表示当前列总共多少行数据
print(data)
print(data.apply(lambda col:sum(col.isnull())/col.size))

print(‘对sample表的列score填补缺失值,填补方法为均值’)
#pandas数据框提供了fillna方法完成对缺失值的填补,例如对sample表的列score填补缺失值,填补方法为均值:
print(data.score.fillna(data.score.mean()))

#当然还可以以分位数等方法进行填补(中位数)
print(‘对sample表的列score填补缺失值,以分位数等方法进行填补(中位数)’)
print(data.score.fillna(data.score.median()))

print(‘产生缺失值指示变量’)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值