数据分箱技术Binning

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/sinat_35930259/article/details/79926270

数据分箱就是按照某种规则将数据进行分类。就像可以将水果按照大小进行分类,售卖不同的价格一样。

对series进行分箱


首先创建一个整形随机的series,表示学生的成绩:
这里写图片描述

然后指定一个分箱原则,规定:0-59为不及格,59-70为一般,70-80为良好,80-100位优秀:
这里写图片描述

然后利用pandas中的cut方法,指定分箱规则和对象,结果将获得一个Categories对象:
这里写图片描述

对于这个对象就可以使用pandas中的value_counts方法来统计各个段内数据的个数:
这里写图片描述

对dataframe分箱


首先创建一个包含学生分数和姓名的dataframe:
这里写图片描述

这里的pd.util.testing.rands(3) for i in range(20)可以生成20个随机3位字符串。

然后使用前面的bins标准对df1进行分箱,得到一个Categories 对象:
这里写图片描述

将这个对象作为新的一列加入df1中:
这里写图片描述

可以看到,新加的一列是前面score值所处的区间。

这样子可读性不好,可以指定label参数为每个区间赋一个标签:
这里写图片描述

展开阅读全文

没有更多推荐了,返回首页