sklearn 特征缩放之-MinMaxScaler
from sklearn import preprocessing
import numpy as np
import matplotlib.pyplot as plt
1.生成测试数据
X_train = np.array([[1., -1., 2.],
[2., 0., 0.],
[0., 1., -1.]])
#help(preprocessing.MinMaxScaler)
2.使用不同方法对数据进行预处理
2.1 缩放特征值到给定的范围
使用 MinMaxScaler 和 MaxAbsScale 分别将 features 缩放到一个 range(通常为[0,1])之间,或者是将每
个 feature的最大绝对值缩放到单位大小。分别来看利用两个缩放器的例子:MinMaxScaler类的构造函
数为 MinMaxScaler(feature_range=(0, 1), copy=True) ,所以其默认的feature_range 为 [0,1],我们先不
管Copy这个参数的意思。技术文档中提到该类的作用是特征缩放,将每个特征缩放到给定的范围。变换
的公式如下:
X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
X_scaled = X_std * (max - min) + min
从上面的公式来看,X_std指的是每个特征的每个样本归一化到0-1 范围内,下面的代码也印证了我们的想法,然
后X_scaled指的是每个feature的样本具体按照min和max缩放的具体方法,比如我们令min = 0.1, max = 0.6
,下面看我们具体的测试代码,可以看到我们的fature中的每个sample都被缩放到了0.1-0.6之间,这个变换
经常被用来作为一个备用的选择相对于 让每个feature具有相同的均值0 和 相同单位1 方差。 再来说构造
函数的参数,第一个feature_range已经提到过了,他的可传递类型为一个元组:tuple(min, max),默认的
数值为(0,1);第二个参数copy:boolean, optional, default True,如果设置为0,那么执行的行的
归一化,并且避免一个复制。再说说类的变量包括min_ , scale_ data_min_ data_max_ data_range_ 但
是需要注意查看这些值之前必须要对类进行初始化,比如下面代码所示
mini_max_scaler = preprocessing.MinMaxScaler()
X1 = np.array([[1,2,3]]).T
X1_STD = (X1 - X1.min()) / (X1.max() - X1.min())
min = 0.1
max = 0.6
X1_scaled = X1_STD * (max - min) + min
print('X1_scaled',X1_scaled)
mini_max_scaler.fit(X_train)
print('min_',mini_max_scaler.min_)
print('scale_',mini_max_scaler.scale_)
print('data_max_',mini_max_scaler.data_max_)
print('data_min_',mini_max_scaler.data_min_)
print('data_range_',mini_max_scaler.data_range_)
X1_scaled [[0.1 ]
[0.35]
[0.6 ]]
min_ [0. 0.5 0.33333333]
scale_ [0.5 0.5 0.33333333]
data_max_ [2. 1. 2.]
data_min_ [ 0. -1. -1.]
data_range_ [2. 2. 3.]