一般在建立分类模型时,当我们进行特征工程的工作经常需要对连续型变量进行离散化的处理,也就是将连续型字段转成离散型字段。
离散化的过程中,连续型变量重新进行了编码。特征离散化后,模型会更稳定,降低了模型过拟合的风险。本文主要介绍3种常见的特征分箱方法:
分箱特点
连续型变量执行离散化的分箱操作,能够更加简洁地呈现数据信息
消除特征变量的量纲影响,因为分箱之后都是类别数,例如:0,1,2...
能够在一定程度上减少异常值的影响,对异常数据有很强的鲁棒性
模拟数据
模拟一份简单的数据和收入INCOME相关
In [1]:
import pandas as pd
import numpy as np
In [2]:
df = pd.DataFrame({"ID":range(10),
"INCOME":[0,10,20,150,35,78,50,49,88,14]})
df
sklearn之KBinsDiscretizer类
本文中介绍的3种分箱操作都是基于sklearn中的KBinsDiscretizer类,官网学习地址:
https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.KBinsDiscretizer.html
from sklearn.preprocessing import KBinsDiscretizer
sklearn.preprocessing.KBinsDiscretizer(n_bins=5,
encode='onehot',
strategy='quantile',
dtype=None,
subsample='warn',
random_state=None)
全部参数解释:
全部属性信息:
重点解释3个参数的使用:
n_bins
参数n_bins参数上指定需要分箱的个数,默认是5个
strategy
指定不同的分箱策略strategy:KBinsDiscretizer类实现了不同的分箱策略,可以通过参数strategy进行选择:
等宽:
uniform
策略使用固定宽度的bins;箱体的宽度一致等频:
quantile
策略在每个特征上使用分位数(quantiles)值以便具有相同填充的bins聚类:
kmeans
策略基于在每个特征上独立执行的k-means聚类过程定义bins。
encode
encode参数表示分箱后的离散字段是否需要进一步进行独热编码或者其他编码处理
KBinsDiscretizer
类只能识别列向量,需要将DataFrame的数据进行转化:
In [3]:
income = np.array(df["INCOME"].tolist()).reshape(-1,1)
income
Out[3]:
array([[ 0],
[ 10],
[ 20],
[150],
[ 35],
[ 78],
[ 50],
[ 49],
[ 88],
[ 14]])
使用之前先导进来:
In [4]:
from sklearn.preprocessing import KBinsDiscretizer
等宽分箱
所谓的等宽分箱就是将数据分成等宽的几份,比如模拟数据中INCOME的范围是0-150。现在将其等宽分成3份,那么每一份对应的取值范围是:[0,50),[50,100)[100,150]
In [5]:
from sklearn.preprocessing import KBinsDiscretizer
dis = KBinsDiscretizer(n_bins=3,
encode="ordinal",
strategy="uniform"
)
dis
Out[5]:
KBinsDiscretizer(encode='ordinal', n_bins=3, strategy='uniform')
In [6]:
label_uniform = dis.fit_transform(income) # 转换器
label_uniform
Out[6]:
array([[0.],
[0.],
[0.],
[2.],
[0.],
[1.],
[1.],
[0.],
[1.],
[0.]])
等宽分箱的边界查看:
In [7]:
dis.bin_edges_
Out[7]:
array([array([ 0., 50., 100., 150.])], dtype=object)
In [8]:
dis.n_bins
Out[8]:
3
等频分箱
等频分箱指的是每个区间内包含的取值个数是相同的,和等宽分箱的区别:
等频分箱:每个区间内包括的值一样多,pd.qcut
等宽分箱:每两区间之间的距离是一样的,pd.cut
在实施等频分箱之前,我们需要先对数据进行升序排列,然后取中间值进行分箱
In [9]:
# 1、先排序
sort_df = sorted(df["INCOME"])
sort_df
Out[9]:
[0, 10, 14, 20, 35, 49, 50, 78, 88, 150]
分成2个类别
In [10]:
# 2、中间值:35和49的均值
(35 + 49) / 2
Out[10]:
42.0
下面我们以42作为等频分箱的依据:
In [11]:
dis = KBinsDiscretizer(n_bins=2,
encode="ordinal",
strategy="quantile"
)
dis.fit_transform(income) # 转换器
Out[11]:
array([[0.],
[0.],
[0.],
[1.],
[0.],
[1.],
[1.],
[1.],
[1.],
[0.]])
In [12]:
dis.bin_edges_
Out[12]:
array([array([ 0., 42., 150.])], dtype=object)
分成3个类别
总共是10个元素,分成3个类,10/3=3...1
,前面两个3个元素,最后一个是4个元素,即最后一个箱体会包含余数部分的元素:
In [13]:
dis = KBinsDiscretizer(n_bins=3,
encode="ordinal",
strategy="quantile"
)
label_quantile = dis.fit_transform(income) # 转换器
label_quantile
Out[13]:
array([[0.],
[0.],
[1.],
[2.],
[1.],
[2.],
[2.],
[1.],
[2.],
[0.]])
In [14]:
dis.bin_edges_ # 分箱边界
Out[14]:
array([array([ 0., 20., 50., 150.])], dtype=object)
In [15]:
sort_df # 排序后的数据
Out[15]:
[0, 10, 14, 20, 35, 49, 50, 78, 88, 150]
聚类分箱
聚类分箱指的是先对连续型变量进行聚类,然后所属样本的类别作为标识来代替原来的数值。
In [16]:
from sklearn import cluster
In [17]:
kmeans = cluster.KMeans(n_clusters=3)
kmeans.fit(income)
Out[17]:
KMeans(n_clusters=3)
聚类完成后查看每个样本所属的类别:
In [18]:
kmeans.labels_
Out[18]:
array([1, 1, 1, 2, 1, 0, 0, 0, 0, 1], dtype=int32)
使用KBinsDiscretizer来实施聚类分箱:
In [19]:
dis = KBinsDiscretizer(n_bins=3,
encode="ordinal",
strategy="kmeans"
)
label_kmeans = dis.fit_transform(income) # 转换器
label_kmeans
Out[19]:
array([[0.],
[0.],
[0.],
[2.],
[0.],
[1.],
[0.],
[0.],
[1.],
[0.]])
In [20]:
dis.bin_edges_ # 分箱边界
Out[20]:
array([array([ 0. , 54.21428571, 116.5 , 150. ])],
dtype=object)
3种方法对比
In [21]:
df["label_uniform"] = label_uniform
df["label_quantile"] = label_quantile
df["label_kmeans"] = label_kmeans
df
参考
特征离散化(分箱)综述:https://zhuanlan.zhihu.com/p/68865422
书籍《特征工程入门与实践》
sklearn官网