归一化和标准化的使用场景
- 如果对输出结果范围有要求,则用归一化
- 如果数据比较稳定,不存在极端的最大值和最小值,则可用归一化
- 如果数据存在异常值和最多噪声,则用标准化,这样可以通过中心化间接避免异常值和极端值的影响。
- 支持向量机、K近邻、主成分分析等模型都必须进行归一化或标准化操作。
- 标准化
标准化是依照特征矩阵的列处理数据,即通过求标准分数的方式,将特征转换为标准正态分布,并和整体样本分布相关。标准化需要计算特征的均值和方差
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris
iris = load_iris()
StandardScaler().fit_transform(iris.data)
- 区间缩放法
区间缩放法利用两个最值(最大值和最小值)进行缩放
from sklearn.preprocessing import MinMaxScaler
from sklearn.datasets import load_iris
iris = load_iris()
MinMaxScaler().fit_transform(iris.data)
- 归一化
归一化是将样本的额特征值转换到同一量纲下,把数据映射到[0,1]或者[a,b]区间内,由于其仅由变化的极值决定,因此区间缩放法是归一化的一种
归一区间会改变数据的原始距离、分布和信息,但标准化一般不会。
from sklearn.preprocessing import Normalizer
from sklearn.datasets import load_iris
iris = load_iris()
Normalizer().fit_transform(iris.data)
- 定量特征二值化
定量特征二值化的核心在于设定一个阈值,大于阈值的赋值为1,小于阈值的赋值为0
from sklearn.preprocessing import Binarizer
Binarizer(threshold=3).fit_transform(iris.data)
- 定性特征哑编码OneHotEncoder
通过取值为0或1,反映某个变量的不同属性,目的是把原本不能定量处理的变量进行量化,从而评估定性因素对因变量的影响。
from sklearn.preprocessing import OneHotEncoder
OneHotEncoder(categories='auto').fit_transform(iris.target.reshape((-1,1)))
- 对数变换
对数变换能够缩小数据的绝对范围,取乘法操作相当于对数变换后的加法操作
from numpy import log1p
from sklearn.preprocessing import FunctionTransformer
from sklearn.datasets import load_iris
iris = load_iris()
iris = iris['data']
iris_log = FunctionTransformer(log1p).fit_transform(iris)
print(iris_log)