Preprocessing data-sklearn数据预处理

最新推荐文章于 2023-04-14 11:36:04 发布

Gunther17

最新推荐文章于 2023-04-14 11:36:04 发布

阅读量487

点赞数 1

分类专栏：机器学习 python数据分析实战练习

本文链接：https://blog.csdn.net/dongyanwen6036/article/details/78821941

版权

本文介绍了数据预处理中的关键步骤，包括使用sklearn进行数据标准化、归一化、正则化。数据标准化利用preprocessing.scale实现，使数据符合标准正态分布。归一化可以通过MinMaxScaler或MaxAbsScaler进行。正则化有助于处理样本相似性的计算。此外，还讨论了特征二值化、分类特征编码、缺失值填充以及多项式特征创建。最后提到了自定义转换，如FunctionTransformer用于实现log transformation。

摘要由CSDN通过智能技术生成

import os
print(os.getcwd())

使用pandas下的read_csv方法，读取csv文件，参数是文件的路径，这是一个相对路径，是相对于当前工作目录的，那么如何知道当前的工作目录呢？

数据标准化

preprocessing.scale(X,axis=0, with_mean=True, with_std=True, copy=True)：

将数据转化为标准正态分布（均值为0，方差为1）

preprocessing.minmax_scale(X,feature_range=(0, 1), axis=0, copy=True)：

将数据在缩放在固定区间，默认缩放到区间 [0, 1]

preprocessing.maxabs_scale(X,axis=0, copy=True)：

数据的缩放比例为绝对值最大值，并保留正负号，即在区间 [-1.0, 1.0] 内。唯一可用于稀疏数据 scipy.sparse的标准化

preprocessing.robust_scale(X,axis=0, with_centering=True, with_scaling=True,copy=True)：

通过 Interquartile Range (IQR) 标准化数据，即四分之一和四分之三分位点之间。

如果您的数据包含了许多异常值,扩展使用数据的均值和方差可能不能很好地工作。在这些情况下,您可以使用robust_scale和RobustScaler作为替代。他们使用更健壮的中心和范围的估计数据。

最低0.47元/天解锁文章

Gunther17

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Preprocessing data-sklearn数据预处理

数据标准化preprocessing.scale(X,axis=0, with_mean=True, with_std=True, copy=True)：将数据转化为标准正态分布（均值为0，方差为1）preprocessing.minmax_scale(X,feature_range=(0, 1), axis=0, copy=
复制链接

扫一扫