处理连续性变量--二值化与分段

1. preprocessing.Binarizer

根据阈值将数据二值化(将特征值设置为0或者1),用于处理连续型变量。大于阈值的值映射为1,小于阈值的值映射为0。二值化是对文本数据常见的处理方式。

from sklearn.preprocessing import Binarizer
X = data.iloc[:,0].values.reshape(-1,1) #所有行第一列的数据,Binarizer为特征专用,所以不能使用一维数组,要reshape升维
transformer = Binarizer(threshold = 30).fit_transform(X) #这边阈值设置为30
data.iloc[:,0] = transformer

2. preprocessing.KBinsDiscretizer

将连续型变量划分为分类变量,能够将连续型变量排序后按照顺序分箱后编码。
参数:
n_bins:每个特征中分箱的个数,默认5,一次会被运用到所有导入的特征。
encode:编码方式默认“onehot"。“onehot"哑变量,返回一个稀疏矩阵,每一列是一个特征中的一个类别,含有该类别的样本表示为1,不含的表示为0。“ordinal”:每个特征的每个箱都被编码为一个整数,返回每一列是一个特征,每个特征下含有不同整数编码的箱的矩阵。“onehot-dense”:做哑变量,之后返回一个密集数组。
strategy:用来定义箱宽,默认"quantile"。“uniform”:等宽分箱,即每个特征中的每个箱的最大值之间的差为 (特征.max() - 特征.min())/n_bins。“quantile”:等位分箱,即每个特征中的每个箱内的样本数量都相同。“kmeans”:按聚类分箱,每个箱中的值到最近的一维k均值聚类的簇心距离相同。

from sklearn.preprocessing import KBinsDiscretizer
X = data.iloc[:,0].values.reshape(-1,1)
est = KBinsDiscretizer(n_bins = 3, encode = 'ordinal', strategy = 'uniform')
est.fit_transform(X)
# 查看转换后分的箱:变成了一列中的三箱
set(est.fit_transform(X).ravel()) # {0.0, 1.0, 2.0}

结果:在这里插入图片描述

est = KBinsDiscretizer(n_bins = 3, encode = 'onehot', strategy = 'uniform')
# 查看转换后分的箱:变成了哑变量
est.fit_transform(X).toarray()

结果:
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

你是个什么橙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值