[Python] 变量重分类（连续变量重分类、离散变量重分类）

最新推荐文章于 2023-02-23 15:43:21 发布

禾木页

最新推荐文章于 2023-02-23 15:43:21 发布

阅读量3.9k

点赞数 1

分类专栏： Python数据分析实战文章标签： python 分类数据分析

本文为原创文章，未经本人许可不得转载，引用请注明出处。

本文链接：https://blog.csdn.net/qq_42281663/article/details/122020581

版权

本文介绍了如何使用Python进行连续变量和离散变量的重分类。对于连续变量，详细阐述了等宽和等频两种重编码方法，并给出了具体案例。离散变量的重分类则包括将分类信息映射到单一指标以及通过`pd.get_dummies()`创建多个指标。内容涵盖了从简单的数据处理到复杂的数据转换技巧。

摘要由CSDN通过智能技术生成

1. Python连续变量重分类

cut( )函数

新变量 = pd.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False)

# x：待分类的变量
# bins：分段的依据
# right：right=True表示分段后包含右边的数，即左开又闭(X,X]
# labels：分类后新的分类标签，若不修改默认以(X,X]/[X,X) 的格式显示
# 其他参数详见：help(pd.cut)

1.1 等宽重编码

案例：

一份df格式的2020年的人口数据，数值为连续型，最小值为0，最大值为109695.39。现在需要分段为0，(0,100]、(100,300]、(300,500]、(500,700]、(700,900]、(900,1100]、(1100,1300]、1300及以上9类。

#格式左开右闭，从零开始(XX]，bins需要加一个最大值
bins = [0,100,200,300,500,700,900,1100,1300,max(df['2020'])] #10个数，9个空格，产生9类
df['2020分层'] = pd.cut(df['2020'],bins,right=True)

#给重分类结果添加标签
bins = [0,100,200,300,500,700,900,1100,1300,max(Wpop2['2020'])]
df['2020分层'] = pd.cut(df['2020'],bins,right=True,labels=[1,2,3,4,5,6,7,8,9])