Python 数据清洗之缺失数据填充函数 fillna() 及缺失值处理

最新推荐文章于 2023-02-04 16:15:51 发布

北木.

最新推荐文章于 2023-02-04 16:15:51 发布

阅读量1w

点赞数 3

分类专栏： Python编程基础 NLP 文章标签： python 数据清洗

本文链接：https://blog.csdn.net/weixin_43283397/article/details/106209352

版权

Python编程基础同时被 2 个专栏收录

103 篇文章 20 订阅

订阅专栏

NLP

51 篇文章 7 订阅

订阅专栏

引入

在实际的项目中，当缺失数据比较多的情况下，可以直接滤除；而当缺失数据比较少时，需要对数据进行填充。

栗子

import numpy as np
from numpy import nan
import pandas as pd
data=pd.DataFrame(np.arange(3,19,1).reshape(4,4),index=list('abcd'))
print(data)
data.iloc[0:2,0:3]=nan
print(data)

      0     1     2   3
a   NaN   NaN   NaN   6
b   NaN   NaN   NaN  10
c  11.0  12.0  13.0  14
d  15.0  16.0  17.0  18

print(data.fillna(0))   ### 用0填充缺失数据

结果为：

      0     1     2   3
a   0.0   0.0   0.0   6
b   0.0   0.0   0.0  10
c  11.0  12.0  13.0  14
d  15.0  16.0  17.0  18

其他填充操作：

print(data.fillna(data.mean()))    # 用每列特征的均值填充缺失数据
print(data.fillna(data.median()))  # 用每列特征的中位数填充缺失数据
print(data.fillna(method='bfill')) # 用相邻后面（back）特征填充前面空值

values={0:10,1:20,2:30}
print(data.fillna(value=values))   # 用字典对不同的列填充不同的缺失数据
...

拓展： pandas 处理缺失值[dropna、drop、fillna]

dropna：去掉含有缺失值的样本（行）
drop：将含有缺失值的列（特征向量）去掉
fillna：将缺失值用某些值填充（0，平均值，中值等）

北木.

关注

3
点赞
踩
34

收藏

觉得还不错? 一键收藏
2
评论
Python 数据清洗之缺失数据填充函数 fillna() 及缺失值处理

引入在实际的项目中，当缺失数据比较多的情况下，可以直接滤除；而当缺失数据比较少时，需要对数据进行填充。栗子 import numpy as npfrom numpy import nanimport pandas as pddata=pd.DataFrame(np.arange(3,19,1).reshape(4,4),index=list('abcd'))print(data)data.iloc[0:2,0:3]=nanprint(data) 0 1 .
复制链接

扫一扫

专栏目录