【数据预处理】数据归一化方法normalization,数据平滑smoothing

 

Table of Contents

归一化

1 Min-max normalization: to [new_minA, new_maxA]

2 z-score normalization(μ: mean, σ: standard deviation):

3 Normalization by decimal scaling

归一化代码示例

数据平滑data smoothing methods

数据离散Data Discretization methods

binning

One-hot Encoding及代码实现


归一化

按比例缩小到较小的指定范围内

•min-max normalization
•z-score normalization
•normalization by decimal scaling

 

1 Min-max normalization: to [new_minA, new_maxA]

eg:收入范围12000~98000,归一化到[0.0,1.0],则73000映射为:

    \frac{73000-12000}{98000-12000}\cdot(1-0)+0

2 z-score normalization(μ: mean, σ: standard deviation):

eg:均值54000,方差16000,则映射为\frac{73000-54000}{16000}

3 Normalization by decimal scaling

Where j is the smallest integer such that Max(|ν’|) < 1

类似单位换算

 

归一化代码示例

from sklearn import preprocessing
import numpy as np
X=np.array([[1.,-1.,2.],
           [2.,0.,0.],
           [0.,1.,-1.]])
X_scaled=preprocessing.scale(X)
X_scaled
array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

 

数据平滑data smoothing methods

数据离散Data Discretization methods

binning

  • Equal-width (distance) partitioning
  • Equal-depth (frequency) partitioning

One-hot Encoding及代码实现

用于处理分类变量,用离散方式将特征用二进制方式表示

代码实现

from sklearn.preprocessing import OneHotEncoder
enc = OneHotEncoder(handle_unknown='ignore')
X = [['Male', 1], ['Female', 3], ['Female', 2]]
enc.fit(X)
print (X)
# enc.categories_
enc.transform([['Female', 1], ['Male', 4]]).toarray()
[['Male', 1], ['Female', 3], ['Female', 2]]
array([[1., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0.]])

相关博文:[数据预处理] onehot编码:是什么,为什么,怎么样 

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据预处理中的归一化是指将数据缩放到一个预定的范围内,通常是[0, 1]或[-1, 1]之间,以消除数据间的量纲差异,提高模型的训练效率。归一化的原理主要包括以下几个步骤: 1. 最小-最大归一化(Min-Max Scaling):将数据映射到指定范围内。首先找到数据集中的最小值(min)和最大值(max),然后使用以下公式将数据归一化到[0, 1]之间: X_normalized = (X - X_min) / (X_max - X_min) 其中,X为原始数据,X_normalized为归一化后的数据。这种方法适用于数据分布没有明显边界的情况。 2. Z-Score归一化(Standardization):将数据转化为均值为0,标准差为1的正态分布。通过以下公式计算: X_standardized = (X - X_mean) / X_std 其中,X_mean为数据的均值,X_std为数据的标准差。这种方法适用于数据分布有明显边界的情况。 3. 小数定标标准化(Decimal Scaling):将数据除以一个固定的基数,使得数据的绝对值都小于1或约等于1。例如,将数据除以10的幂次方,使得数据处于[-1, 1]之间。 归一化的目的是消除数据量纲和大小的差异,使得数据在同一个数量级下进行比较,加快模型的收敛速度。通过归一化,可以去除数据中的夸大特征,使得所有特征的尺度同等重要,从而提高模型的性能。 参考资料: Python数据预处理数据规范化.https://www.jianshu.com/p/406e81b2f978 数据预处理中的归一化、标准化和规范化.https://blog.csdn.net/you_are_my_dream/article/details/79978528 数据预处理归一化Normalization).https://www.cnblogs.com/chaosimple/p/4153167.html

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值