pandas.cut函数在分组过程中时给我赋负值-----解决方案

最新推荐文章于 2024-09-28 18:43:01 发布

yanxiaoyu110

最新推荐文章于 2024-09-28 18:43:01 发布

阅读量376

点赞数 8

分类专栏： python 文章标签： pandas

本文链接：https://blog.csdn.net/qq_36714950/article/details/135604934

版权

python 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

本文介绍了在使用pandas.cut函数对数值数据进行区间划分时遇到的负值问题，通过重新定义区间并调整类别标签解决了这个问题，提供了代码示例以帮助读者理解和应用。

摘要由CSDN通过智能技术生成

1. 简介

pandas.cut函数是用于将连续的数值型数据分割成几个区间，常用于将连续变量离散化。
在这个函数中，**第一个参数是需要被分割的数据，第二个参数**是分割的区间数量。

pd.cut(np.array([1, 7, 5, 4, 6, 3]), 3)

运行结果为
在这里插入图片描述

2. 遇到的问题

照常来说，这样就结束了，但是目前我遇到了一个新的问题，就是我将一组数据：

min_value=0.001999
max_value=8.12799

进行分组的时候会出现负值，分类结果如下：
在这里插入图片描述
至于为什么出现这种情况，目前自己还没有搞明白。如果有小伙伴可以在评论区进行指教说明。

3. 解决方案

我们重新将第一个区间进行重新进行定义
代码如下：

np.random.seed(0)
s = pd.Series(np.random.randint(-10,100,size=100)).clip(lower=0)
s_cut = pd.cut(s, bins=10)
print(s_cut.cat.categories)

first_I = s_cut.cat.categories[0]
new_I = pd.Interval(0, first_I.right)
s_cut = s_cut.cat.rename_categories({first_I: new_I})
print(s_cut.cat.categories)

# before
IntervalIndex([(-0.095, 9.5], (9.5, 19.0], (19.0, 28.5], ...)

# after
IntervalIndex([(0.0, 9.5], (9.5, 19.0], (19.0, 28.5], ...)

yanxiaoyu110

关注

8
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录