大数据知识分享：Python特征工程之特征缩放

最新推荐文章于 2024-05-14 23:46:16 发布

泰迪智能科技

最新推荐文章于 2024-05-14 23:46:16 发布

阅读量414

点赞数 7

分类专栏： Python 文章标签： python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tipdm0526/article/details/135063471

版权

Python 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

本文介绍了在IT技术中处理数据时，如何通过归一化（单位范数）、鲁棒标准化（基于分位数范围）和二值化（阈值处理）进行特征缩放，以消除不同量纲带来的影响。使用sklearn.preprocessing库中的相应工具实现这些过程。

摘要由CSDN通过智能技术生成

不同特征之间往往具有不同的量纲，由此所造成的数值间的分布差异可能会很大，为了消除可能造成的影响，需要对数据进行标准化处理，即特征缩放。

1.归一化

归一化将样本分别归一化为单位范数，使得具有至少一个非零分量的每个样本都独立于其他样本进行重新缩放，如数据矩阵的每一行，以使样本的范数（l1，l2或inf）等于1。

# 归一化

from sklearn.preprocessing import Normalizer

transformer = Normalizer().fit(X) # fit方法不输出

transformer.transform(X)

2.鲁棒标准化

这种标准化方法使用对异常值鲁棒的统计信息来缩放特征，通过计算训练集中样本的相关统计信息，对每个特征进行独立的缩放。通常根据分位数范围，默认使用IQR，即四分位间距缩放数据。

# 鲁棒标准化

from sklearn.preprocessing import RobustScaler

transformer = RobustScaler().fit(X)

transformer.transform(X)

3.二值化

这种方法根据设定的阈值对数据进行二值化，将数值设置为0或1。数据集中大于阈值的值映射为1，而小于或等于阈值的值映射为0。该方法常用于文本计数数据或灰度图像的预处理。

from sklearn.preprocessing import Binarizer

transformer = Binarizer().fit(X)

transformer.transform(X)

更多精彩内容我们下期见！

泰迪智能科技

关注

7
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
大数据知识分享：Python特征工程之特征缩放

不同特征之间往往具有不同的量纲，由此所造成的数值间的分布差异可能会很大，为了消除可能造成的影响，需要对数据进行标准化处理，即特征缩放。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。