数据离散化一般用来把采集到的数据点分散到设定好的多个区间中,或者在不同的区间内选择特定数据值代表该区间的数据。pandas的cut函数实现数据离散化操作。
pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates=‘raise’)
参数:
x:表示要分箱的数组,必须是一维的。
bins:int或序列类型的数据。int类型的值表示在x范围内的等宽单元的数量(划分为多少个等间距区间);序列表示将x划分在指定的序列中,若不在此序列中,则为NaN。
right:是否包含右端点,默认True。
labels:用于生成区间的标签。
rebins:是否返回bins。
precision:精度,默认保留三位小数。
include_lowest:是否包含左端点,默认False。
返回值:Categorial对象,包含区间划分的数量和各区间范围。
(1)在要分箱的数组范围((最小指,最大值])内划分等间距区间
import pandas as pd
x = [30, 90, 0, 70, 100]
pd.cut(x, 5)
(2)把要分箱的数组划分在