数据预处理（sklearn.preprocessing）

最新推荐文章于 2024-08-20 14:29:20 发布

不会写作文的李华

最新推荐文章于 2024-08-20 14:29:20 发布

阅读量1.3w

点赞数 32

分类专栏：机器学习文章标签：机器学习数据预处理 scikit-learn

本文链接：https://blog.csdn.net/qq_40195360/article/details/88378248

版权

文章目录

前言

数据预处理的工具有许多，在我看来主要有两种：pandas数据预处理和scikit-learn中的sklearn.preprocessing数据预处理。

前面更新的博客中，我已有具体的根据pandas来对数据进行预处理，原文请点击这里。其中主要知识点包括一下几个方面：

数据的集成：merge、concat、join、combine_first；
数据类型转换：字符串处理（正则表达式）、数据类型转换（astype)、时间序列处理（to_datetime）等；
缺失值处理：查找、定位、删除、填充等；
重复值处理：查找、定位、删除等；
异常值处理：根据原理自定义函数处理异常数据（不推荐）；
特征修改：增加、删除、变换（简单函数变换）、离散化等；
数据抽样：简单随机抽样、分层抽样等；
…………

这里，本文主要针对与在scikit-learn中的sklearn.preprocessing数据预处理。

首先，sklearn.preprocessing包提供了几个常用的实用函数和转换器类（这里主要介绍类的使用），以将原始特征向量转换为更适合下游估计器的表示。

preprocessing中有很多的类，但主要有以下几种常用的数据处理类：

1. 标准化

标准化相信大家接触的也多所以这里就不过多介绍，这里只是顺带提一下。

StandardScaler
MinMaxScaler
MaxAbsScaler
RobustScaler

1. MinMaxScaler

最小-最大规范化对原始数据进行线性变换，变换到[0,1]区间（也可以是其他固定最小最大值的区间）每个特征中的最小值变成了0，最大值变成了1.

import numpy as np
from sklearn.preprocessing import MinMaxScaler
X = np.array([[-1, 2], [-0.5, 6], [0, 10], [1, 18]])
#实现归一化
scaler = MinMaxScaler()          #实例化
scaler = scaler.fit(X)          #fit，在这里本质是生成min(x)和max(x)
result = scaler.transform(X)    #通过接口导出结果

#也可以训练和导出结果一步达成
result_ = scaler.fit_transform(data)

此外，使用MinMaxScaler的参数feature_range实现将数据归一化到[0,1]以外的范围中。

scaler = MinMaxScaler(feature_range=[5,10])   #依然实例化
result = scaler.fit_transform(X)

将归一化后的结果逆转:：

scaler.inverse_transform(result)

2. StandardScaler

Standardization标准化:将特征数据的分布调整成标准正太分布，也叫高斯分布，也就是使得数据的均值维0，方差为1.

from sklearn.pr

最低0.47元/天解锁文章

不会写作文的李华

关注

32
点赞
踩
211

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录