大数据知识分享:Python特征工程之特征缩放

本文介绍了在IT技术中处理数据时,如何通过归一化(单位范数)、鲁棒标准化(基于分位数范围)和二值化(阈值处理)进行特征缩放,以消除不同量纲带来的影响。使用sklearn.preprocessing库中的相应工具实现这些过程。
摘要由CSDN通过智能技术生成

不同特征之间往往具有不同的量纲,由此所造成的数值间的分布差异可能会很大,为了消除可能造成的影响,需要对数据进行标准化处理,即特征缩放。

1.归一化

归一化将样本分别归一化为单位范数,使得具有至少一个非零分量的每个样本都独立于其他样本进行重新缩放,如数据矩阵的每一行,以使样本的范数(l1,l2或inf)等于1。

# 归一化

from sklearn.preprocessing import Normalizer

transformer = Normalizer().fit(X)  # fit方法不输出

transformer.transform(X)

2.鲁棒标准化

这种标准化方法使用对异常值鲁棒的统计信息来缩放特征,通过计算训练集中样本的相关统计信息,对每个特征进行独立的缩放。通常根据分位数范围,默认使用IQR,即四分位间距缩放数据。

# 鲁棒标准化

from sklearn.preprocessing import RobustScaler

transformer = RobustScaler().fit(X)

transformer.transform(X)

3.二值化

这种方法根据设定的阈值对数据进行二值化,将数值设置为0或1。数据集中大于阈值的值映射为1,而小于或等于阈值的值映射为0。该方法常用于文本计数数据或灰度图像的预处理。

# 二值化

from sklearn.preprocessing import Binarizer

transformer = Binarizer().fit(X)

transformer.transform(X)

更多精彩内容我们下期见!

  • 7
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值