数据预处理—数据转换(1)—数值型数据的处理

4.1.1数值型数据的处理
标准化&归一化!
  • 数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模、特征、分布差异等对模型的影响。
  • 标准化(Z-Score)
    • Z-Score标准化是基于原始数据的均值和标准差进行的标准化,假设原转换的数据为x,新数据为x′,那么x’=(x-mean)/std,其中mean和std为x所在列的均值和标准差。
    • 这种方法适合大多数类型的数据,也是很多工具的默认标准化方法。标准化之后的数据是以0为均值,方差为1的正态分布。但是Z-Score方法是一种中心化方法,会改变原有数据的分布结构,不适合对稀疏数据做处理。
  • 归一化(Max-Min)
    • Max-Min标准化方法是对原始数据进行线性变换,假设原转换的数据为x,新数据为x′,那么x’=(x-min)/(max-min),其中min和max为x所在列的最小值和最大值。
    • 这种标准化方法的应用非常广泛,得到的数据会完全落入[0,1]区间内(Z-Score则没有类似区间)。这种方法能使数据归一化而落到一定的区间内,同时还能较好地保持原有数据结构。
import numpy as np
from sklearn import preprocessing
import matplotlib.pyplot as plt
# Z-Score标准化
zscore_scaler = preprocessing.StandardSca
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值