数据科学中的陷阱：定性变量的处理

最新推荐文章于 2023-12-11 11:16:45 发布

linghujing

最新推荐文章于 2023-12-11 11:16:45 发布

阅读量9.3k

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42580464/article/details/81140709

版权

定性变量，也就是表示类别的变量，比如性别、省份等。对于这类变量，不能在模型里直接使用它们，因为定性变量之间的数学计算是毫无意义的。另一方面，定性变量是一类很常见的变量，通常带着很有价值的信息。因此，这篇文章就将讨论如何正确地在模型里使用定性变量。对于定性变量，常见的处理方法有两种：一种是将定性变量转换为多个虚拟变量，另一种对将有序的定性变量转换为定量变量。一、虚拟变量正如前文中讨论...

摘要由CSDN通过智能技术生成

定性变量，也就是表示类别的变量，比如性别、省份等。对于这类变量，不能在模型里直接使用它们，因为定性变量之间的数学计算是毫无意义的。另一方面，定性变量是一类很常见的变量，通常带着很有价值的信息。因此，这篇文章就将讨论如何正确地在模型里使用定性变量。

对于定性变量，常见的处理方法有两种：一种是将定性变量转换为多个虚拟变量，另一种对将有序的定性变量转换为定量变量。

一、虚拟变量

正如前文中讨论的，直接对定性变量数字编码，得到的变量将无法进行有意义的数学运算。那么，相应的解决方法就是使得变换之后的变量不能直接做数学运算。

为了便于理解，我们先来看一个简单的例子：使用身高和性别对体重构建线性回归模型。性别是一个二元定性变量，可能的取值为男或女。用两个新生成的变量来取代性别，记为(x1, x2)。其中，x1 = 1表示性别为男， x1 = 0表示性别不为男; x2类似，表示性别是否为女。在学术上，新生成的变量被称为虚拟变量(dummy variable)。虚拟变量是一种特殊的离散型变量，可能的值只有两个：0或1，因此也被称为0/1变量。

用y表示体重， z表示身高，于是有：

最低0.47元/天解锁文章

关注

2
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
数据科学中的陷阱：定性变量的处理

定性变量，也就是表示类别的变量，比如性别、省份等。对于这类变量，不能在模型里直接使用它们，因为定性变量之间的数学计算是毫无意义的。另一方面，定性变量是一类很常见的变量，通常带着很有价值的信息。因此，这篇文章就将讨论如何正确地在模型里使用定性变量。对于定性变量，常见的处理方法有两种：一种是将定性变量转换为多个虚拟变量，另一种对将有序的定性变量转换为定量变量。一、虚拟变量正如前文中讨论...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。