如何处理数据集中的缺失数据

最新推荐文章于 2024-08-13 23:01:48 发布

Diobld

最新推荐文章于 2024-08-13 23:01:48 发布

阅读量1.6k

点赞数

文章标签： sklearn 人工智能 python

本文链接：https://blog.csdn.net/Diobld/article/details/123241564

版权

关键词由CSDN通过智能技术生成

先观察各项特征分布情况

import pandas as pd
features = [ "Sex","Age","SibSp", "Parch","Fare"]
X = pd.get_dummies(train_data[features])
X.info()

1、缺失值较多的特征处理

一般抛弃该特征，否则会带来噪声，对预测数据结果造成影响。

其余的特征缺失值都在10%以内，我们可以采取很多的方式来处理，如下：

方法1：把NaN直接作为一个特征，假设用0表示，实现如下：

#fillna(0)要赋值才能生效
data_train = data_train.fillna(0)

方式2：用均值填充:

# 将所有行用各自的均值填充 
data_train =data_train.fillna(data_train.mean())
# 指定某些行进行均值填充
data_train =data_train.fillna(data_train.mean()[[1,4]])

训练集train有缺省值,测试集test无缺省值，可对缺省值去条件均值或者条件中值

方式3：用上下数据进行填充

#用前一个数据代替NaN: method='pad'
data_train = data_train.fillna(method='pad')
#用后一个数据代替NaN: method='bfill'
data_train = data_train.fillna(method='bfill')

方式4：用插值法填充；

# 插值法就是通过两点（x0，y0），（x1，y1）估计中间点的值
data_train = data_train.interpolate()

方式5：用算法拟合进行填充；

如用随机森林，使用已知的特征预测含有缺省值的特征。

将填补后的数据表保存在new_train.csv中

关注