python数据标准化处理数据_Python数据处理从零开始----第三章(pandas)③数据标准化(1)...

标准化,也称去均值和方差按比例缩放

数据集的 标准化 对scikit-learn中实现的大多数机器学习算法来说是 常见的要求 。如果个别特征或多或少看起来不是很像标准正态分布(具有零均值和单位方差),那么它们的表现力可能会较差。在实际情况中,我们经常忽略特征的分布形状,直接经过去均值来对某个特征进行中心化,再通过除以非常量特征(non-constant features)的标准差进行缩放。

例如,在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化),许多学习算法中目标函数的基础都是假设所有的特征都是零均值并且具有同一阶数上的方差。如果某个特征的方差比其他特征大几个数量级,那么它就会在学习算法中占据主导位置,导致学习器并不能像我们说期望的那样,从其他特征中学习。

函数 [scale]"sklearn.preprocessing.scale"为数组形状的数据集的标准化提供了一个快捷实现:from sklearn import preprocessingimport numpy as np

X_train = np.array([[ 1., -1.,  2.],

[ 2.,  0.,  0.],

[ 0.,  1., -1.]])

X_scaled = preprocessing.scale(X_train)

X_scaled

Out[28]:

array([[ 0.        , -1.22474487,  1.33630621],

[ 1.22474487,  0.        , -0.26726124],

[-1.22474487,  1.22474487, -1.06904497]])

经过缩放后的数据具有零均值以及标准方差:X_scaled.mean(axis=0)<

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值