Sklearn 数据预处理与特征工程 preprocessing&impute

最新推荐文章于 2024-02-01 22:30:22 发布

destiny_block

最新推荐文章于 2024-02-01 22:30:22 发布

阅读量362

点赞数 1

分类专栏： sklearn 文章标签： scipy python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/destiny_block/article/details/105058025

版权

本文详细介绍了使用Scikit-learn进行数据预处理和特征工程的多个步骤，包括无量纲化、缺失值处理、连续特征处理、多项式特征生成、自定义转换器的创建以及分类特征的编码。无量纲化方法如标准化和非线性变换，缺失值处理，以及如何处理连续特征，如二值化。此外，还讨论了生成多项式特征以增强模型复杂性，以及如何自定义转换器以适应特定需求。最后，介绍了编码分类特征的方法，包括独热编码和标签编码。

摘要由CSDN通过智能技术生成

数据预处理：目的是为了提高数据质量,使数据挖掘的过程更加有效,更加容易,同时也提高挖掘结果的质量。数据预处理的对象主要是清理其中的噪声数据、空缺数据和不一致数据。

特征工程：降低计算成本、提升模型上限

模块 preprocessiong: 几乎包含了所有预处理的所有内容
模块 Impute：填补缺失值专用

目录：

1、无量纲化

线性：中心化处理、缩放处理
- 中心化处理：中心化的本质是让所有记录减去一个固定值，让所有的数据平移到某个位置。
- 缩放处理：缩放的本质是通过处以一个固定值，将数据固定在某个范围之内，取对数也算是一种缩放处理。
非线性

2、缺失值
3、处理连续特征
4、生成多项式特征
5、自定义转换器
6、编码分类特征

一、无量纲化

1、线性变换

sklearn.preprocessing.StandardScaler(copy=True, with_mean=True, with_std=True)

通过减掉均值并将数据缩放到单位方差来标准化特征，标准化完后的特征符合标准正态分布，即方差为1，均值为0.

sklearn.preprocessing.MinMaxScaler(feature_range=(0, 1), copy=True)

通过最大值最小值将每个特征缩放到给定范围，默认为[0,1]。

X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
X_scaled = X_std * (max - min) + min

sklearn.preprocessing.MaxAbsScaler(copy=True)

通过让每一个特征里的数据，除以该特征中绝对值最大的数值，将数据缩放到[-1，1]。这种做法并没有中心化数据，因此不会破坏数据的稀疏性。

sklearn.preprocessing.RobustScaler

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。