Preprocessing data-sklearn数据预处理

本文介绍了数据预处理中的关键步骤,包括使用sklearn进行数据标准化、归一化、正则化。数据标准化利用preprocessing.scale实现,使数据符合标准正态分布。归一化可以通过MinMaxScaler或MaxAbsScaler进行。正则化有助于处理样本相似性的计算。此外,还讨论了特征二值化、分类特征编码、缺失值填充以及多项式特征创建。最后提到了自定义转换,如FunctionTransformer用于实现log transformation。
摘要由CSDN通过智能技术生成

import os
print(os.getcwd())

使用pandas下的read_csv方法,读取csv文件,参数是文件的路径,这是一个相对路径,是相对于当前工作目录的,那么如何知道当前的工作目录呢?



数据标准化



preprocessing.scale(X,axis=0, with_mean=True, with_std=True, copy=True):

将数据转化为标准正态分布(均值为0,方差为1)


preprocessing.minmax_scale(X,feature_range=(0, 1), axis=0, copy=True):

将数据在缩放在固定区间,默认缩放到区间 [0, 1]


preprocessing.maxabs_scale(X,axis=0, copy=True):

数据的缩放比例为绝对值最大值,并保留正负号,即在区间 [-1.0, 1.0] 内。唯一可用于稀疏数据 scipy.sparse的标准化


preprocessing.robust_scale(X,axis=0, with_centering=True, with_scaling=True,copy=True):

通过 Interquartile Range (IQR) 标准化数据,即四分之一和四分之三分位点之间。

如果您的数据包含了许多异常值,扩展使用数据的均值和方差可能不能很好地工作。在这些情况下,您可以使用robust_scale和RobustScaler作为替代。他们使用更健壮的中心和范围的估计数据。


  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值