定量变量和定性变量的转换(Transform of Quantitative & Qualitative Variables)

本文介绍了定量变量(数值型变量)与定性变量(类别型变量)的转换方法。对于定量变量,常用转换包括分箱(等宽与自适应分区间)和WOE转换;对于定性变量,转换方式有虚拟变量(如虚拟编码、独热编码、效果编码和区间计数)和将其量化(如Ridit scoring、WOE)。这些转换在数据预处理中至关重要,有助于处理非线性关系和提高模型的解释性。
摘要由CSDN通过智能技术生成

定量变量(Quantitative Variables):也称为数值型变量(Numerical Variables),可以用连续值离散值表示。比如:气温(连续值),学生人数(离散值)。

 

为什么要对定量变量进行转换?大多数情况下,我们可以直接使用定量变量。但是有时候,特征和目标之间不呈线性关系。比如说年龄和收入之间的关系,当人年轻时,收入通常会稳步上升,但到了一定年纪之后,收入便开始降低。我们当然可以用非线性模型来拟合数据,但是这样会把模型弄得很复杂。因此比较好的做法是在数据准备的阶段就对定理变量做分箱处理(Binning,也称为分区间)。在对定量变量分箱处理之后,还要再将其转换为虚拟变量或对其进行WOE转换(参见:https://zhuanlan.zhihu.com/p/30026040)。

 

将定量变量转换为定性变量的方法为:分区间(Binning),包括等宽分区间以及自适应分区间。

 

1. 等宽分区间(Fixed-Width Binning):可以用pandas的cut()方法自己设定区间范围。等宽分区间的缺点是:落在某个区间中的数据点的数目不一定是均匀的,因此可能会得到不规则的区间。一些区间中的数据可能会非常的密集,一些区间则会非常稀疏甚至是空的。因此,自适应分区间方法是一个更安全的策略。

 

2. 自适应分区间(Adptive Binning):使用数据的四分位数来确定区间范围,这样确保每个区间内的数据个数是相同的。

 


 

定性变量(Qualitative Variables):也称为类别型变量(Categorical Variables),通常用文本字符串离散值表示。根据变量之间是否存在次序关系,又可以分为有序型定性变量(Ordinal)无序型定性变量(Nominal)。比如:衣服的尺寸“大

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值