sklearn.preprocessing()详解: 标准化、正则化、最小最大规范化、特征二值化

最新推荐文章于 2024-07-17 01:42:37 发布

MaeveShi

最新推荐文章于 2024-07-17 01:42:37 发布

阅读量4.4k

点赞数

分类专栏： Sklearn基础

本文链接：https://blog.csdn.net/MaeveShi/article/details/107834902

版权

本文详细介绍了scikit-learn库中的数据预处理方法，包括StandardScaler进行数据的标准化与归一化，MinMaxScaler实现最小最大规范化，Normalizer进行正则化/归一化操作，以及Binarizer的特征二值化过程。每个方法的原理、参数和实例均进行了阐述，旨在帮助理解并应用这些预处理技术。

摘要由CSDN通过智能技术生成

一. 数据的标准化与归一化(zero-mean normalization): class sklearn.preprocessing.StandardScaler(*, copy=True, with_mean=True, with_std=True)

官方文档-StandardScaler

standard score(z) of a sample x: z = (x - u) / s
u: the mean of training samples (u = 0 if with_mean = False)
s: the standard deviation of the training samples (s = 1 if with_std = False)
Parameters and Attributes:

例子：

from sklearn.preprocessing import StandardScaler
data = [[0, 0], [0, 0], [1, 1], [1, 1]]
scaler = StandardScaler()
print(scaler.fit(data))

output: StandardScaler()

print(scaler.mean_)
print(scaler.var_)

output:
array([0.5, 0.5])
array([0.25, 0.25])

其中scaler.fit(data)，即StandardScaler.fit(data)计算出数据的平均值和标准差，并存储在StandardScaler()中便于之后的使用；
调用attributes中的mean_和var_求数据的平均值和方差.
除了fit()之外，StandardScaler()还有许多不同的methods：