机器学习中样本缺失值的处理方法

最新推荐文章于 2024-07-13 23:48:50 发布

Shingle_

最新推荐文章于 2024-07-13 23:48:50 发布

阅读量2.3k

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/Shingle_/article/details/80400100

版权

机器学习专栏收录该内容

48 篇文章 2 订阅

订阅专栏

删除

忽略有缺失值的样本

dropna()

填充

使用可用特征或相似样本的均值来填充缺失值

scikit-learn的Imputer类提供了估算缺失值的基本策略，可以使用缺失值所在的行或列的均值，中位数或最频繁值。这个类还允许不同的缺失值编码。

>>> import numpy as np
>>> from sklearn.preprocessing import Imputer
>>> imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
>>> imp.fit([[1, 2], [np.nan, 3], [7, 6]])
Imputer(axis=0, copy=True, missing_values='NaN', strategy='mean', verbose=0)
>>> X = [[np.nan, 2], [6, np.nan], [7, 6]]
>>> print(imp.transform(X))                           
[[ 4.          2.        ]
 [ 6.          3.666...]
 [ 7.          6.        ]]

使用特殊值来填补缺失值，如-1

fillna()

使用机器学习算法预测缺失值

lb = 'Education'
idx = 0
tr = np.where(df_all[lb] != -1)[0]
va = np.where(df_all[lb] == -1)[0]
df_all.iloc[va, idx] = LogisticRegression(C=1).fit(X_all[tr],
                                                   df_all.iloc[tr, idx]).predict(X_all[va])

lb = 'age'
idx = 2
tr = np.where(df_all[lb] != -1)[0]
va = np.where(df_all[lb] == -1)[0]
df_all.iloc[va, idx] = LogisticRegression(C=2).fit(X_all[tr],
                                                   df_all.iloc[tr, idx]).predict(X_all[va])

lb = 'gender'
idx = 3
tr = np.where(df_all[lb] != -1)[0]
va = np.where(df_all[lb] == -1)[0]
df_all.iloc[va, idx] = LogisticRegression(C=2).fit(X_all[tr],
                                                   df_all.iloc[tr, idx]).predict(X_all[va])

df_all = pd.concat([df_all, df_te]).fillna(0)
df_all.to_csv(cfg.data_path + 'all_v2.csv', index=None

Shingle_

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习中样本缺失值的处理方法

删除忽略有缺失值的样本dropna()填充使用可用特征或相似样本的均值来填充缺失值scikit-learn的Imputer类提供了估算缺失值的基本策略，可以使用缺失值所在的行或列的均值，中位数或最频繁值。这个类还允许不同的缺失值编码。&gt;&gt;&gt; import numpy as np&gt;&gt;&gt; from sklearn.prepr...
复制链接

扫一扫

专栏目录