数据预处理与特征工程（二）----缺失值的处理

折纸成诗

于 2020-11-30 17:55:57 发布

阅读量1.2k

点赞数 1

分类专栏：基础文章标签： python 机器学习

本文链接：https://blog.csdn.net/lichangze1/article/details/110393787

版权

基础专栏收录该内容

11 篇文章 0 订阅

订阅专栏

数据预处理与特征工程（二）----缺失值的处理

相关数据集均放置在本人的csdn文件中，如有需要，可免费下载。内容来自老师上课的课件。侵删…

缺失值的处理

背景

机器学习和数据挖掘中所使用的数据，永远不可能是完美的。很多特征，对于分析和建模来说意义非凡，但对于实际收集数据的人却不是如此，因此数据挖掘之中，常常会有重要的字段缺失值很多，但又不能舍弃字段的情况。因此，数据预处理中非常重要的一项就是处理缺失值。在这里，我们使用从泰坦尼克号提取出来的数据，这个数据有三个特征，一个数值型，两个字符型，标签也是字符型。在python的机器学习中，我们常用的包是sklearn。

常用参数

from sklearn.impute import SimpleImputer

其常用参数有：

missing_values：告诉SimpleImputer，数据中的缺失值长什么样，默认空值np.nan
strategy：填补缺失值的策略，默认均值。
1. 输入“mean”使用均值填补（仅对数值型特征可用）
2. 输入“median"用中值填补（仅对数值型特征可用）
3. 输入"most_frequent”用众数填补（对数值型和字符型特征都可用）
4. 输入“constant"表示请参考参数“fill_value"中的值（对数值型和字符型特征都可用）
fill_value：当参数startegy为”constant"的时候可用，可输入字符串或数字表示要填充的值，常用0
copy：默认为True，将创建特征矩阵的副本，反之则会将缺失值填补到原本的特征矩阵中去。

实例代码

读取泰坦尼克缩减版数据并探索

import pandas as pd
data = pd.read_csv(r".\Narrativedata.csv" ,index_col=0)
#index_col=0将第0列作为索引，不写则认为第0列为特征 
data.head()
data.info()

对年龄数据进行各种方式的填补

#填补年龄
Age = data.loc[:,"Age"].values.reshape(-1,1)        #sklearn当中特征矩阵必须是二维
Age[:20]
from sklearn.impute import SimpleImputer
imp_mean = SimpleImputer()                      #实例化，默认均值填补
imp_median = SimpleImputer(strategy="median")  #用中位数填补
imp_0 = SimpleImputer(strategy="constant",fill_value=0) 	#用0填补
imp_mean = imp_mean.fit_transform(Age)              
imp_median = imp_median.fit_transform(Age)
imp_0 = imp_0.fit_transform(Age)
imp_mean[:20]
imp_median[:20]
imp_0[:20]
data.loc[:,"Age"] = imp_median 							#最终选择中位数
data.info()

使用众数填补Embarked

Embarked = data.loc[:,"Embarked"].values.reshape(-1,1)
imp_mode = SimpleImputer(strategy = "most_frequent")
data.loc[:,"Embarked"] = imp_mode.fit_transform(Embarked)
data.info()

折纸成诗

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
数据预处理与特征工程（二）----缺失值的处理

数据预处理与特征工程（二）----缺失值的处理相关数据集均放置在本人的csdn文件中，如有需要，可免费下载。内容来自老师上课的课件。侵删…缺失值的处理背景机器学习和数据挖掘中所使用的数据，永远不可能是完美的。很多特征，对于分析和建模来说意义非凡，但对于实际收集数据的人却不是如此，因此数据挖掘之中，常常会有重要的字段缺失值很多，但又不能舍弃字段的情况。因此，数据预处理中非常重要的一项就是处理缺失值。在这里，我们使用从泰坦尼克号提取出来的数据，这个数据有三个特征，一个数值型，两个字符型，标签也
复制链接

扫一扫