1、问题
为了统计连续变量的区间频数,需要将其进行等宽分箱。但改变量的取值范围不定,不适合用枚举的方式,例如每隔5分为一箱?
2、解决方法
当使用 Pandas 的 cut
函数进行分箱时,可以设置固定宽度的箱子,而不必枚举每个分割点。使用参数 bins
并指定一个间隔即可。
对于提到的每隔5分为一箱的情况,可以这样操作:
这段代码中,bins
参数指定了一个范围,从0开始、每5个数一个箱子,一直延伸到最大值的上限。这样就会按照每5个数为一个箱子进行分割,并将数据分配到相应的箱子中。 right=False
表示左闭右开的区间,即每个箱子左侧是闭区间(包含),右侧是开区间(不包含)。
3、结果
也可以根据具体需求调整范围和间隔,让数据以固定宽度的箱子进行分割。