分箱及离散化数据的pd.cut使用

#调用cut函数对数据进行处理。pd.cut用于面元划分或离散化。cats=pd.cut(list,bins) bins为传入的区间,可用right=False对右开区间。返回值cats有.levels和label两个。
#其中,cats.levels返回index类型,如[[1,2],[3,4]],如lcats.labels则返回array,如[0,1]

bins=[openF.R3years.min(),0,0.1,0.3,0.5,1,2,openF.R3years.max()]
cats=pd.cut(openF[R3years],bins,right=False)
#print(cats.labels)
#print(cats.levels)
cats

cat.labels及cat.levels是python2.0的用法,在3.0里面已做了更改。
其中,cats是一个返回箱名的字符串数组。cats.codes返回一个一维数组的数值标签,而cats.categoriedd返回一个类型为interval的不同类别名称。

bins=[openF.R3years.min(),0,0.1,0.3,0.5,1,2,openF.R3years.max()]
cats=pd.cut(openF.R3years,bins,right=False)
#print(cats.codes) #无法调用,可能新版本又变了
#print(cats.categories)
s1=pd.value_counts(cats)
attr=s1.index
v1=s1.values


bar = Bar("基金3年收益率个数分布图")
bar.add("基金三年收益率该组个数", attr,v1, xaxis_interval=0, xaxis_rotate=36, yaxis_rotate=0)
bar

新的也无法调用,大概是避免出错吧。不过利用pd.value_counts()可以调用后来数据需要的Index和values,可能这种做法也不错。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值