数据分箱技术Binning

最新推荐文章于 2024-03-31 18:06:46 发布

徐念安

最新推荐文章于 2024-03-31 18:06:46 发布

阅读量3.8k

点赞数 2

分类专栏：数据科学文章标签：数据科学数据分箱 Binning Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/geekmubai/article/details/86676313

版权

数据科学专栏收录该内容

25 篇文章 7 订阅

订阅专栏

数据分箱技术Binning

数据分箱就是按照某种规则将数据进行分类。就像可以将水果按照大小进行分类，售卖不同的价格一样。

对Series进行分箱

创建一个整形随机的series，表示学生的成绩：

import numpy as np
import pandas as pd
from pandas import Series, DataFrame
score_list = np.random.randint(25, 100, size=20)

然后指定一个分箱原则

bins = [0,59,70,80,100]

然后利用pandas中的cut方法，指定分箱规则和对象，结果将获得一个Categories对象：

score_cat = pd.cut(score_list, bins)

使用pandas中的value_counts方法来统计各个段内数据的个数：

pd.value_counts(score_cat)

对Dataframe分箱

创建一个包含学生分数和姓名的dataframe：

df = DataFrame()  
df['score'] = score_list
df['student'] = [pd.util.testing.rands(3) for i in range(20)]  # 三个随机字符串

这里的pd.util.testing.rands(3) for i in range(20)可以生成20个随机3位字符串。

然后使用前面的bins标准对df1进行分箱，得到一个Categories对象：

df['Categories'] = pd.cut(df['score'],bins)

这样子可读性不好，可以指定label参数为每个区间赋一个标签：

df['Categories'] = pd.cut(df['score'],bins, labels=['Low','OK','Good','Great'])

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
数据分箱技术Binning

数据分箱技术Binning数据分箱就是按照某种规则将数据进行分类。就像可以将水果按照大小进行分类，售卖不同的价格一样。对Series进行分箱创建一个整形随机的series，表示学生的成绩：import numpy as npimport pandas as pdfrom pandas import Series, DataFramescore_list = np.random.r...
复制链接

扫一扫

专栏目录

徐念安 CSDN认证博客专家 CSDN认证企业博客

码龄6年

110: 原创

9万+: 周排名

114万+: 总排名

64万+: 访问

: 等级

5202: 积分

291: 粉丝

576: 获赞

88: 评论

2164: 收藏

私信

关注

热门文章

分类专栏

最新评论

Apply函数进行数据预处理
Z2051604807: 大佬，这个csv文件方便分享一下吗
Java方法重写与重载的区别
风起风落时: 巩固一下
Seaborn
阿卡林！！: 您好，相关数据的xlsx能否发一下呢？
Java方法重写与重载的区别
林阿云: 建议你仔细看看，前一句说限制权限下一句就private限制最小？新手搁这学知识呢还是给你抠字眼呢，本来就不懂还搞文字游戏，搁这学语文呢，第三点的例子也是，private不能重写和子类访问权限不能比父类严格有很大关系吗，这点就不是在这位置说的，文章漏洞多还怕人说，你真网络好人呗。
数据采集：如何自动化采集数据？
IOTOS: 数据采集软件有很多，不过现在的智慧项目会涉及到很多不同品牌型号的型号，后期更是需要扩展的功能，要统一采集的平台很少，而爱投斯（IOTOS）物联网中间件平台可以满足这些需求，除此之外还可以用于数据展示和应用开发，能够更快更低成本的帮助用户开发行业系统。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。