1.分箱的意义
将数据放在分段线中,例如将成绩按照等差区间分为,A,B,C,D。分别对应60,80,90,100。
2.代码示例
import pandas as pd
import numpy as np
ages = [20,22,33,54,64,43,55,66,75,32,21,11]
bins = [18,25,35,60,100]
cart = pd.cut(ages,bins) #将原数据按照bins中的区间进行分箱。
cart.codes #查看每个数据分箱到哪里了
cart.categories#查看分区的详细信息
pd.value_counts(cart) #显示各分段的数量
right = False #改变左开右闭为左闭右开区间
labels=[‘名称1’,‘名称2’...] #使用自定义分箱名称
如果传入整数作为分箱,则取最大与最小的差值等长作为分箱边界。
precision=n整数自动分箱时的间距的精度
qcut基于样本个数分位数进行分箱,而cut是基于最大值最小值的位置分位数。例:
data = np.random.randn(1000)
cats = pd.qcut(data,4,presicion=3)
pd.value_counts(cats) #显示各分段的数量