spss回归分析_回归分析时何时设置哑变量?如何设置?手把手教会SPSS分析

本文详细介绍了在SPSS中如何设置哑变量进行回归分析,包括线性、逻辑和Cox回归。哑变量用于处理无序分类自变量,解决非线性关系问题。以种族变量为例,说明了如何通过创建哑变量来比较不同类别对结果变量的影响。通过SPSS的操作步骤,展示了如何设置哑变量并解释分析结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

点击学习全部医学统计学与SPSS教程

SPSS 教程36 哑变量设置分析

‍哑变量(DummyVariable),也叫虚拟变量,是解决回归分析分类自变量的重要举措。它是“不发声”的过程变量,通过设置哑变量,可将多分类变量进行二值化的处理,从而结局多分类特别是无需多分类变量无法纳入回归分析模型的尴尬局面。

回归分析的棘手问题--非线性关系

1

回归分析要求自变量与应变量存在着线性关系

回归分析主要探讨自变量x与研究结局变量y的关系,无论线性回归,logistic回归或者COX回归都要求x与y或者y的转换存在着线性关系。x对y的影响,可以用回归系数b值来反映。

5ee181c0ebba158b0b7f8bb3a91efb11.png

b1意味着,x平均每增加一个单位y增加的量。比如,x是年龄,y是血压,那么x平均增加一岁,血压将增加的数量。这样的解释,要求x与y有线性关系,意味着x无论是50岁,还是60岁,增加1个单位的情况下,血压增加的幅度都一致。否则,b1,不代表x是50岁时对血压的影响,也不代表60岁时对血压的影响。

5c7ffdf15a9cc9fe35c36fe85d2829d0.png

2

回归分析无法去探讨无序多分类自变量与结局的关系

最令人棘手的是,无序分类数据的问题。它与应变量之间根本不存在线性关系的可能。

例1: Hosmer和Lemeshow于1989年研究了低出生体重婴儿的影响因素,结果变量为是否娩出低出生体重儿,考虑的自变量有产妇妊娠前体重、产妇年龄、种族、是否吸烟、早产次数、是否患高血压等。(数据文件见:logistic_step.sav。)

4ccc659ebd0152c66b5e3ff2f99f2d46.png

该数据库中有一个变量为种族,变量值为白人/黑人/其他人,为无序多分类资料(赋值分别是1、2、3)。如果该变量纳入回归模型,怎么解读回归系数b值呢?那么就是自变量从1到2对y的影响和从2到3影响的平均值。也就是白人到黑人,黑人到其他人种变化带来的影响的平均值。这个结果无法说明任何问题,既不能说明黑人相对白人出生缺陷的严重性,也不能说其他人种的影响。这个变量是无序分类变量,各变量之间没有等级关系。因此,取平均值没有任何实际意义。

因此,无序多分类变量不能直接纳入回归开展分析。

回归分析的哑变量设置

对于种族的影响,其实研究最想知道的是,(1)相对白人,黑人出生缺陷风险会提升多少? (2)相对白人,其它人种出生缺陷风险会提升多少?  因此,一个变量需要回答两个问题,最好的办法是把这个变量分为两个子变量,分别计算b值和OR值,这个子变量便是哑变量。

502d7bf6cd5d1aaae0d6cf3cb00d87f3.png

一般情况下,哑变量个数是原变量分类数的n-1个,比如种族变量是3分类变量,则一个种族变量产生了2个二分类(变量值为0、1)哑变量。这些哑变量是过程性变量,一般不体现在原始数据库中,但它们作为实体变量代替原变量进入到回归模型中。

a6969f58afd9f49bf4783b978f3ff0f5.png<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值