多维多重背包问题_关于回归分析中哑变量赋值的问题(一)

本文探讨了在回归分析中如何正确处理多分类变量,通过实例解释了哑变量赋值的必要性。作者指出,将多分类变量转换为哑变量可以避免引入错误的数值关系,并通过具体的数据分析展示了未正确处理分类变量导致的误导性结果。通过哑变量赋值,最终得出汽车流量和冬季对空气中一氧化氮浓度有显著影响的正确结论。
摘要由CSDN通过智能技术生成

3f55abc0ea1d4be599fc42a196e8b027.gif

作者:周剑丽   封面:吉江

3d82575c878ed90caab091ec13ad3502.gifhello,很高兴和大家见面。今天我们来谈一下回归分析中哑变量赋值的问题。

5afb1bc34758bab4fcec812009320db1.gif首先,我们来认识一下什么是哑变量

 哑变量( Dummy Variables) 又称虚拟变量、虚设变量和名义变量,是用以反映质的属性的一个二分类人工变量,是量化了的自变量,通常取值为0或1。

115dace3d7531c4e17203420d012490c.gif那为什么要赋哑变量呢?

在回归模型中,回归系数b表示其他自变量不变,x每改变一个单位时,所预测的y的平均变化量,当x为连续性变量时这样解释没有问题,二分类变量由于只存在两个类别间的比较,也可以对系数得到很好的解释,但是当x为多分类变量时值拟合一个回归系数就不太合适了,此时需要使用哑变量方式对模型加以定义。

061f835da3ebba8aa7ec59a6953d4dd3.gif来,咱们先看一个例子

为了研究空气中一氧化氮(NO)的浓度与汽车流量等因素的关系,有人测定了中国北方某城市交通点在单位时间内过往的汽车数(X1)、气温(X2)、空气湿度(X3)、风速(X4)、季节(X5)以及空气中 NO 的浓度(Y),数据下表所示。

空气中NO 浓度与相关因素的监测数据

64bb6f995c937e28333f07b1250b7ec3.png

春、夏、秋、冬分别赋值为1、2、3、4,然后将数据输入spss用多重线性回归逐步回归方法进行分析。数据输入如下:

c4283e54bb1e418e00640fad4abe5133.png

主要结果输出如下:

eddcdd6ded698941ca2ebf66c639ed82.png

7d38d8570b263a315ac88db096e10548.gif提示只有车流(X1)对空气中一氧化氮浓度有影响,(P<0.001)。

90b9ef395da1e0e6c4ceac91717a50e9.gif这个结果是否对呢?

我们来观察一下自变量的类型,车流(X1)、气温(X2)、空气湿度(X3)、风速(X4)均为定量变量,只有季节(X5)为定性变量。在以上分析中我们把春、夏、秋、冬分别赋值为1、2、3、4,但是我们知道,这仅仅是一个代码而已,并不代表这四个季节存在大小依次的关系,若按编码数值来分析,实际上就是强行规定为等距,这很显然会引入误差。这种情况下,就必须将原始的多分类变最转化为数个哑变量。每个哑变量只代表某两个级别或若干个级别间的差异,这样得到的回归结果才能有明确而合理的实际意义。

90b9ef395da1e0e6c4ceac91717a50e9.gif哑变量的个数等于分类变量水平数-1,于是,我们将这四个季节赋哑变量:

季节

V1

V2

V3

1春

0

0

0

2夏

1

0

0

3秋

0

1

0

4冬

0

0

1

其中V1=1代表夏季,V1=0代表非夏季;V2=1则代表秋季,V2=0代表非秋季;V3=1则代表冬季,V3=0代表非冬季。每个哑变量无法单独来用来表示所有的季节,但是三个哑变量合并起来,就可以表示四个季节了。

在SPSS中,数据变成这样:

291f183fdf7c8ac6c6307cc8f09116e5.png

756e832fd1757844752f81239a415abb.gif再进行一次回归分析,这次将V1、V2和V3与其他自变量放进方程中,而X5则不放进方程,逐步回归结果如下:

37da7349ff660a5465c6f4bdc3304fb9.png

我们发现除了车流(X1)对空气中一氧化氮浓度有影响外,季节这个变量也对空气中一氧化氮浓度有影响。结论是空气中一氧化氮浓度与车流(X1)及“是否为冬季有关”。b1=8.824E-005且为正,说明汽车流量越大,空气中一氧化氮浓度浓度越高。bv3=-0.061,由于是负值,说明冬季相对于其它季节空气中一氧化氮浓度较低,而春、夏、秋 3个季节的更迭不会造成空气中一氧化氮浓度有统计学意义的变化。

23569d8375e4b55b1a33dd4d675cf7a4.gif看,经过哑变量赋值,才能得到正确的回归结果。

3a4e89b01d6f1a65038176649194faf2.gif本例是以多重回归分析为例的,在logistic回归、Cox回归中对分类变量的赋值方法相同

作者简介 33136795c0bbb7105b1b01a00ed0327f.png

姓名:周剑丽

院校/专业: 南方医科大学/劳动卫生与环境卫生学硕士

擅长:多元线性回归、Logistic回归、Meta分析

学堂君的历史合辑:

菜鸟系列

问卷系列

线性回归

信效度分析

聚类分析

时间序列

常见问题

神经网络

多维尺度分析

C4.5算法

生存分析

正态检验

对应分析

问卷数据分析

权重赋值

判别分析

SPSS实现机器学习在信用风险识别中的应用

欢迎添加:

【数据分析服务】请点击菜菜帮工作室正式上线

【社群服务助手】请点击SPSS学堂会员3群招募

【加入团队】请点击招募,我们是认真的!

de0567ce049a18893b8e596333f7d04f.gif

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值