导读:本文介绍离散化(分位数)在分组聚合中的作用,约370字,正常读完需要2~3分钟。
python数据分析实战:pandas之分组聚合一文的拓展2中求12小时累计降水还可以通过离散化函数来解决。
pandas.cut()函数可以将连续变量(continuous variable )转变为分类变量(categorical variable)其具体实现可以分为以下两种方法:
1. 指定间隔
通过bins划分每个分类变量的范围,指定include_lowest=True则表示第一个区别包括最左端的数,其他区别均为左开右闭(x1,x2]。
同时我们还可以指定label变量,用于指定返回变量的标签
2. 等宽度分箱
将bins替换为一个整数N,程序会向最大值和最小值两侧分别扩展1%,然后将整个范围切割为N等份。
同样,此时也可以手动指定返回label=['0-11','12-23']。
最后,求12小时累计降水可以写成: