数据特征处理

归一化和标准化的使用场景

  • 如果对输出结果范围有要求,则用归一化
  • 如果数据比较稳定,不存在极端的最大值和最小值,则可用归一化
  • 如果数据存在异常值和最多噪声,则用标准化,这样可以通过中心化间接避免异常值和极端值的影响。
  • 支持向量机、K近邻、主成分分析等模型都必须进行归一化或标准化操作。
  1. 标准化
    标准化是依照特征矩阵的列处理数据,即通过求标准分数的方式,将特征转换为标准正态分布,并和整体样本分布相关。标准化需要计算特征的均值和方差
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris
iris = load_iris()
StandardScaler().fit_transform(iris.data)
  1. 区间缩放法
    区间缩放法利用两个最值(最大值和最小值)进行缩放
from sklearn.preprocessing import MinMaxScaler
from sklearn.datasets import load_iris
iris = load_iris()
MinMaxScaler().fit_transform(iris.data)
  1. 归一化
    归一化是将样本的额特征值转换到同一量纲下,把数据映射到[0,1]或者[a,b]区间内,由于其仅由变化的极值决定,因此区间缩放法是归一化的一种
    归一区间会改变数据的原始距离、分布和信息,但标准化一般不会。
from sklearn.preprocessing import Normalizer
from sklearn.datasets import load_iris
iris = load_iris()
Normalizer().fit_transform(iris.data)
  1. 定量特征二值化
    定量特征二值化的核心在于设定一个阈值,大于阈值的赋值为1,小于阈值的赋值为0
from sklearn.preprocessing import Binarizer
Binarizer(threshold=3).fit_transform(iris.data)
  1. 定性特征哑编码OneHotEncoder
    通过取值为0或1,反映某个变量的不同属性,目的是把原本不能定量处理的变量进行量化,从而评估定性因素对因变量的影响。
from sklearn.preprocessing import OneHotEncoder
OneHotEncoder(categories='auto').fit_transform(iris.target.reshape((-1,1)))
  1. 对数变换
    对数变换能够缩小数据的绝对范围,取乘法操作相当于对数变换后的加法操作
from numpy import log1p
from sklearn.preprocessing import FunctionTransformer
from sklearn.datasets import load_iris

iris = load_iris()
iris = iris['data']

iris_log = FunctionTransformer(log1p).fit_transform(iris)
print(iris_log)
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值