Sklearn.processing：scale, StandardScaler, MinMaxScaler, Normalizer

最新推荐文章于 2024-08-05 11:28:49 发布

bebr

最新推荐文章于 2024-08-05 11:28:49 发布

阅读量2.7k

点赞数 2

分类专栏： Python 文章标签： Sklearn.processing scale StandardScaler MinMaxScaler Normalizer

Python 专栏收录该内容

21 篇文章 9 订阅

订阅专栏

一、标准化
去除均值和方差缩放：通过(X-X_mean)/std计算每个属性(每列)，进而使所有数据聚集在0附近，方差为1.

(1)、sklearn.preprocessing.scale()
直接将给定数据进行标准化

from sklearn import preprocessing
import numpy as np
X = np.array([[ 1., -1.,  2.],[ 2.,  0.,  0.],[ 0.,  1., -1.]])
X_scaled = preprocessing.scale(X)

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

X_scaled.mean(axis=0)
array([ 0.,  0.,  0.])

X_scaled.std(axis=0)
array([ 1.,  1.,  1.])

(2)、sklearn.preprocessing.StandardScaler()
可保存训练集中的均值、方差参数，然后直接用于转换测试集数据。

scaler = preprocessing.StandardScaler().fit(X)
scaler.transform(X)  

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

scaler.mean_
array([ 1.        ,  0.        ,  0.33333333])

scaler.var_
array([ 0.66666667,  0.66666667,  1.55555556])

二、缩放到指定范围
将属性缩放到一个指定的最大和最小值（通常是1-0）之间，这样处理可对方差非常小的属性增强其稳定性，也可维持稀疏矩阵中为0的条目。
preprocessing.MinMaxScaler(feature_range=(0, 1), copy=True)
计算公式：
X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
X_scaled = X_std * (max - min) + min
其中
feature_range : tuple (min, max), default=(0, 1)

minmaxscaler = preprocessing.MinMaxScaler().fit(X)
minmaxscaler.transform(X)

array([[ 0.5       ,  0.        ,  1.        ],
       [ 1.        ,  0.5       ,  0.33333333],
       [ 0.        ,  1.        ,  0.        ]])

minmaxscaler.scale_
array([ 0.5       ,  0.5       ,  0.33333333])

 minmaxscaler.min_ 
 array([ 0.        ,  0.5       ,  0.33333333])

也可直接应用fit_transform(X)实现fit和transform功能。

三、正则化（这个是对行进行正则化）
对每个样本计算其p-范数，再对每个元素除以该范数，这使得每个处理后样本的p-范数（l1-norm,l2-norm）等于1。如果后续要使用二次型等方法计算两个样本之间的相似性会有用。
preprocessing.Normalizer(norm=’l2’, copy=True)

norm：可以为l1、l2或max，默认为l2

若为l1时，样本各个特征值除以各个特征值的绝对值之和

若为l2时，样本各个特征值除以各个特征值的平方之和

若为max时，样本各个特征值除以样本中特征值最大的值

from sklearn import preprocessing
import numpy as np
X = np.array([[ 1., -1.,  2.],[ 2.,  0.,  0.],[ 0.,  1., -1.]])
scaler= preprocessing.Normalizer(norm='l1').fit(X)
X_scaled = scaler.transform(X)
print(X)
print(X_scaled)


[[ 1. -1.  2.]
 [ 2.  0.  0.]
 [ 0.  1. -1.]]
[[ 0.25 -0.25  0.5 ]
 [ 1.    0.    0.  ]
 [ 0.    0.5  -0.5 ]]

转自：https://blog.csdn.net/u013402321/article/details/79043402