数据分箱技术Binning

数据分箱通过将数值分类提升数据可读性。在Python中,使用pandas的cut方法可对Series和DataFrame进行分箱操作。例如,将成绩分为不及格、一般、良好和优秀四个等级,并统计各等级人数。同样,可以为DataFrame的多个列定义分箱规则,提高数据展示的清晰度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据分箱就是按照某种规则将数据进行分类。就像可以将水果按照大小进行分类,售卖不同的价格一样。

对series进行分箱


首先创建一个整形随机的series,表示学生的成绩:
这里写图片描述

然后指定一个分箱原则,规定:0-59为不及格,59-70为一般,70-80为良好,80-100位优秀:
这里写图片描述

然后利用pandas中的cut方法,指定分箱规则和对象,结果将获得一个Categories对象:
这里写图片描述

对于这个对象就可以使用pandas中的value_counts方法来统计各个段内数据的个数:
这里写图片描述

对dataframe分箱


首先创建一个包含学生分数和姓名的dataframe:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值