定量变量和定性变量的转换（Transform of Quantitative & Qualitative Variables）

最新推荐文章于 2024-10-28 11:00:05 发布

weixin_30732825

最新推荐文章于 2024-10-28 11:00:05 发布

阅读量2.8k

点赞数 2

文章标签： python

原文链接：http://www.cnblogs.com/HuZihu/p/10363152.html

版权

本文介绍了定量变量（数值型变量）与定性变量（类别型变量）的转换方法。对于定量变量，常用转换包括分箱（等宽与自适应分区间）和WOE转换；对于定性变量，转换方式有虚拟变量（如虚拟编码、独热编码、效果编码和区间计数）和将其量化（如Ridit scoring、WOE）。这些转换在数据预处理中至关重要，有助于处理非线性关系和提高模型的解释性。

摘要由CSDN通过智能技术生成

定量变量（Quantitative Variables）：也称为数值型变量（Numerical Variables），可以用连续值或离散值表示。比如：气温（连续值），学生人数（离散值）。

为什么要对定量变量进行转换？大多数情况下，我们可以直接使用定量变量。但是有时候，特征和目标之间不呈线性关系。比如说年龄和收入之间的关系，当人年轻时，收入通常会稳步上升，但到了一定年纪之后，收入便开始降低。我们当然可以用非线性模型来拟合数据，但是这样会把模型弄得很复杂。因此比较好的做法是在数据准备的阶段就对定理变量做分箱处理（Binning，也称为分区间）。在对定量变量分箱处理之后，还要再将其转换为虚拟变量或对其进行WOE转换（参见：https://zhuanlan.zhihu.com/p/30026040）。

将定量变量转换为定性变量的方法为：分区间（Binning），包括等宽分区间以及自适应分区间。

1. 等宽分区间（Fixed-Width Binning）：可以用pandas的cut()方法自己设定区间范围。等宽分区间的缺点是：落在某个区间中的数据点的数目不一定是均匀的，因此可能会得到不规则的区间。一些区间中的数据可能会非常的密集，一些区间则会非常稀疏甚至是空的。因此，自适应分区间方法是一个更安全的策略。

2. 自适应分区间（Adptive Binning）：使用数据的四分位数来确定区间范围，这样确保每个区间内的数据个数是相同的。

定性变量（Qualitative Variables）：也称为类别型变量（Categorical Variables），通常用文本字符串或离散值表示。根据变量之间是否存在次序关系，又可以分为有序型定性变量（Ordinal）和无序型定性变量（Nominal）。比如：衣服的尺寸“大