使用sklearn进行数据预处理

1. 数据标准化

数据标准化(Standardization or Mean Removal and Variance Scaling)

进行标准化缩放的数据均值为0,具有单位方差。

scale函数提供一种便捷的标准化转换操作,如下:
在这里插入图片描述
同样我们也可以通过preprocessing模块提供的Scaler(StandardScaler 0.15以后版本)工具类来实现这个功能:
在这里插入图片描述

2. 特征缩放

2.1 MinMaxScaler(最小最大值标准化)

将数据缩放至给定的最小值与最大值之间,通常是0与1之间

公式:X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0)) ;
在这里插入图片描述

2.2 MaxAbsScaler(绝对值最大标准化)

它通过除以最大值将训练集缩放至[-1,1]。这意味着数据已经以0为中心或者是含有非常非常多0的稀疏数据。
在这里插入图片描述

3. 数据规范化(Normalization)

把数据集中的每个样本所有数值缩放到(-1,1)之间。
在这里插入图片描述

4. 二进制化(Binarization)

将数值型数据转化为布尔型的二值数据,可以设置一个阈值(threshold)
在这里插入图片描述

5. 标签预处理(Label preprocessing)

5.1 标签二值化(Label binarization)

LabelBinarizer通常用于通过一个多类标签(label)列表,创建一个label指示器矩阵
在这里插入图片描述

5.2 标签编码(Label encoding)

在这里插入图片描述

源码地址:《使用sklearn进行数据预处理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值