pandas数据离散化pandas.cut()和pandas.qcut()

pandas数据离散化什么叫数据离散化?也可以理解为数据分组。举个简单的例子,我们有一组学生成绩的数据,我们可以将数据按照成绩的最大值和最小值划分为几个相同的区间。假设最高分100分,最低分50分,我们可以划分为两个相同宽度的范围。分别是[50,74]、[75,100]。 统计这两个区间都有多少数据。第二种是根据人数对成绩区间进行划分,所划分的区间人数基本持平。接下来具体通过代码来实现看看。...
摘要由CSDN通过智能技术生成

pandas数据离散化

什么叫数据离散化?也可以理解为数据分组。举个简单的例子,我们有一组学生成绩的数据,我们可以将数据按照成绩的最大值和最小值划分为几个相同的区间。假设最高分100分,最低分50分,我们可以划分为两个相同宽度的范围。分别是[50,74]、[75,100]。 统计这两个区间都有多少数据。第二种是根据人数对成绩区间进行划分,所划分的区间人数基本持平。接下来具体通过代码来实现看看。

等宽划分成绩区间

import pandas as pd
import numpy as np
cutnum = pd.cut(tips['tip'],4)
print("tips['tip']的最大值和最小值分别为:",tips['tip'].max(),tips['tip'].min())
print(cutnum.value_counts())

在这里插入图片描述

  1. pd.cut(data,num) data是需要划分的数据,num是划分多少段。此方法是将使用数据的最大值和最小值进行区间划分。
  2. 从结果中,我们可以看到,数据中的最大值是10,最小值是1,整个区间被平分为了四段,每一段的区间一样。

等平分段,按照人数进行区间的划分

import pandas as pd
import numpy as np
qcutnum =
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值