【机器学习】python机器学习借助scikit-learn进行数据预处理工作：缺失值填补，文本处理（一）

颢师傅

已于 2022-08-19 05:41:07 修改

阅读量670

点赞数

分类专栏：机器学习 python 文章标签： python 机器学习 scikit-learn pandas

于 2022-08-13 22:15:00 首次发布

本文链接：https://blog.csdn.net/hh1357102/article/details/126321369

版权

python 同时被 2 个专栏收录

89 篇文章 11 订阅

订阅专栏

机器学习

36 篇文章 5 订阅

订阅专栏

housing.dropna(subset=["total_bedrooms"])

2.放弃整个属性。

median = housing["total_bedrooms"].median()

3.将缺失的值设置为某个值（0、平均数或者中位数等）。

housing["total_bedrooms"].fillna(median, inplace=True)

提示：pandas中的参数axis指定要遍历的是所有index还是遍历所有列做操作。

axis=0、axis=index，指的是遍历每个index、行号，即在纵向上遍历每列，所以做sum()、mean()等运算时，是对每列数据做操作，而drop(index, axis=0)，传入的参数指定了某一行号，所以会在纵向上遍历每列，去掉行号对应位置的数据。

axis=1、axis=columns，指的是遍历每个columns、列名，即在横向上遍历每行，所以做sum()、mean()等运算时，是对每行数据做操作，而drop(col, axis=1)，传入的参数指定了某一列名，所以会在横向上遍历每行，去掉列名对应位置的数据。

故：

#housing.isnull()逐一判断哪些值null,any(axis=1)判断哪些行存在nan
#any () 函数检查索引中的任何元素是否为true。
sample_incomplete_rows = housing[housing.isnull().any(axis=1)].head()
sample_incomplete_rows

得到了缺失值所在行，形成了新的pd
下面使用sklearn中的SimpleImputer函数，自动处理缺失值：
#去掉带文字的指定列
housing_num = housing.drop("ocean_proximity", axis=1)
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(strategy="median")
imputer.fit(housing_num)
#此时转换为一个ndarray
X = imputer.transform(housing_num)
或者可用直接调用：
X=imputer.fit_transform(housing_num)
housing_tr = pd.DataFrame(X, columns=housing_num.columns,
                          index=housing.index)
最后查看填补后的缺失值
housing_tr.loc[sample_incomplete_rows.index.values]

输出：
在这里插入图片描述
imputer函数参数详解：

二、处理文本和分类属性
主要是将用于分类的文本转化为数字：

housing_cat = housing[["ocean_proximity"]]
from sklearn.preprocessing import OneHotEncoder
#预处理模块拿到独热向量：
cat_encoder = OneHotEncoder()
#输出结果为稀疏矩阵
housing_cat_1hot = cat_encoder.fit_transform(housing_cat)
#也可使用housing_cat_1hot.toarray()转换为普通矩阵
#由此打印出最终类别
cat_encoder.categories_

输出结果：
在这里插入图片描述

颢师傅

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
【机器学习】python机器学习借助scikit-learn进行数据预处理工作：缺失值填补，文本处理（一）

提示：pandas中的参数axis指定要遍历的是所有index还是遍历所有列做操作。一、数字预处理工作，分为处理数字缺失值及处理文本两部分。3.将缺失的值设置为某个值（0、平均数或者中位数等）。1.放弃这些相应的区域。二、处理文本和分类属性。......
复制链接

扫一扫