机器学习中关于缺失值的处理

最新推荐文章于 2023-05-19 12:04:08 发布

TensorHuang

最新推荐文章于 2023-05-19 12:04:08 发布

阅读量1.2k

点赞数

分类专栏：机器学习人工智能文章标签：特征工程机器学习

本文链接：https://blog.csdn.net/weixin_41012049/article/details/82991677

版权

机器学习中处理缺失值通常采用平均值、中位数、众数等填充，或使用随机森林等模型预测缺失值。最有效的方法是将变量映射到高维空间，如Google和百度的CTR预估模型所用。

摘要由CSDN通过智能技术生成

目前处理缺失值的方法有以下几种，

1.用平均值、中值、分位数、众数、随机值等替代。

用sklearn的相关包进行缺失值填充，strategy可以赋值为‘mean’，‘median’，‘most_frequent’，分别代表均值，中位数，众数。

import pandas as pd
from sklearn.preprocessing import Imputer

train_data = pd.read_csv('/360/featureEngineer/trainData/train_data.csv')
values_data = train_data.values
imputer = Imputer(missing_values='NaN', strategy='mean', axis=0)
data_filled = imputer.fit_transform(values_data)

也可以将NaN值作为一个特征，用0填充

import pandas as pd

data = pd.read_csv('data.csv')
data_filled = data.fillna(0)

用均值填充

data.fillna(data.mean())        # 将所有行用各自的均值填充

data.fillna(data.mean()['f

最低0.47元/天解锁文章

TensorHuang

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
机器学习中关于缺失值的处理

目前处理缺失值的方法有以下几种，1.用平均值、中值、分位数、众数、随机值等替代。用sklearn的相关包进行缺失值填充，strategy可以赋值为‘mean’，‘median’，‘most_frequent’，分别代表均值，中位数，众数。import pandas as pdfrom sklearn.preprocessing import Imputertrain_data...
复制链接

扫一扫