处理数据之前,通常会使用一些转换函数将「特征数据」转换成更适合「算法模型」的特征数据。这个过程,也叫数据预处理。
比如,我们在择偶时,有身高、体重、存款三个特征,身高是180、体重是180、存款是180000;存款的数值跟其他数据不在一个数量级,这意味着存款的对择偶结果的影响比较大,但我们认为这三个特征同样重要,这时候就需要把这些规格不同的数据转换到同一规格。
「归一化」是常用的预处理方式之一,就是把数据转换到 0~1 之间。
一、数据预处理API
sklearn.preprocessing 是数据预处理的 API
sklearn.preprocessing.MinMaxScaler( feature_range=(0,1) )
- MinMaxScaler.fit_transform( data ):接收array类型数据,返回归一化后的array类型数据。
参数:
- feature_range=(0,1):(可选,默认0~1)指定归一化的范围,。
二、准备数据集
准备一个测试用的「数据集」,这里我们用 datasets 自带的 鸢尾花数据集
from sklearn import datasets
# 获取数据源
iris = datasets.load_iris()
# 打印数据
print(iris.data)
</