数据归一化与标准化处理python

本文介绍了Python中数据归一化的两种常见方法:z-score标准化和最大最小归一化。z-score标准化适合高斯分布数据,用于距离度量和PCA;最大最小归一化适用于数值集中且对稳定性要求不高的场景。两者的区别在于是否保留距离信息和权重信息。此外,还提及了中心化处理。在工程实践中,通常首选标准化。
摘要由CSDN通过智能技术生成

一: Zero-mean normalization(z-score标准化)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qoGPUXNm-1681476365601)(attachment:image.png)]

(1) 将原始数据集归一化为均值为0、方差1的数据集

(2) 该种归一化方式要求原始数据的分布可以近似为高斯分布,否则归一化的效果会变得很糟糕。

应用场景:在分类、聚类算法中,需要使用距离来度量相似性的时候(比如K-means等聚类算法 中),或者使用PCA技术进行降维的时候,Z-score standardization表现更好。

1:调用preprocessing库的scale()函数

from sklearn import preprocessing
import numpy as np
X_train = np.array([[ 1., -1.,  2.],
                    [ 2.</
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值