Python缺失值的处理方法（针对不同情况的用法）

最新推荐文章于 2024-06-09 13:19:08 发布

bingbangx

最新推荐文章于 2024-06-09 13:19:08 发布

阅读量1.7k

点赞数 2

分类专栏： Python

本文链接：https://blog.csdn.net/bingbangx/article/details/107136665

版权

Python 专栏收录该内容

113 篇文章 12 订阅

订阅专栏

缺失值首先要根据实际情况定义：

可以采用直接删除法
有时候需要使用替换法或插值法

例1：

# 判断是否缺失
df.isnull()
# np.sum()默认是沿着行的方向进行操作，即axis=0,计算每一列的和
np.sum(df.isnull())
#计算缺失率
df.apply(lambda x: sum(x.isnull())/len(x),axis=0)
#how='any'指的是只要这一行有一个缺失值就会被删除
#how='all'指的是这一行全部缺失就会被删除

#默认是0，删除掉有缺失值为0 的行df.dropna()
df.dropna(how='any',axis=0)

例2：

#指的是把某列删除
df.drop('chargeid ',axis=1)
#删除两列
df.drop(labels=['chargeid ','ID'],axis=1)
#根据这两个变量，只要有一个缺失的，就把它删掉
df.dropna(how='any',subset=['settlementdate','chargeid'])

例3：

#缺失值用平均值来填充
df.settlementdate.fillna(df.settlementdate.mean())
#字符型缺失值一般用众数来填充
df.settlementdate.fillna(df.settlementdate.mode()[0])
#用某一值来填补缺失值
df.settlementdate.fillna(20)
#不指定哪个变量时，所有的缺失值都用某个数填充
df.fillna(20)
inplace=True 才指对原数据进行处理
# 不同的变量一起填补
df.fillna(value={'gender':df.gender.mode()[0],
'age':df.age.mean(),'income':df.income.median()})
# 前一项填补
df.fillna(method='ffill')
#下一项填补
df.fillna(method='bfill')

bingbangx

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Python缺失值的处理方法（针对不同情况的用法）

缺失值首先要根据实际情况定义：可以采用直接删除法有时候需要使用替换法或插值法例1：# 判断是否缺失df.isnull()# np.sum()默认是沿着行的方向进行操作，即axis=0,计算每一列的和np.sum(df.isnull())#计算缺失率df.apply(lambda x: sum(x.isnull())/len(x),axis=0)#how='any'指的是只要这一行有一个缺失值就会被删除#how='all'指的是这一行全部缺失就会被删除df.dropna(how
复制链接

扫一扫

专栏目录