点击学习全部医学统计学与SPSS教程
SPSS 教程36 哑变量设置分析
哑变量(DummyVariable),也叫虚拟变量,是解决回归分析分类自变量的重要举措。它是“不发声”的过程变量,通过设置哑变量,可将多分类变量进行二值化的处理,从而结局多分类特别是无需多分类变量无法纳入回归分析模型的尴尬局面。
回归分析的棘手问题--非线性关系
1回归分析要求自变量与应变量存在着线性关系
回归分析主要探讨自变量x与研究结局变量y的关系,无论线性回归,logistic回归或者COX回归都要求x与y或者y的转换存在着线性关系。x对y的影响,可以用回归系数b值来反映。
b1意味着,x平均每增加一个单位y增加的量。比如,x是年龄,y是血压,那么x平均增加一岁,血压将增加的数量。这样的解释,要求x与y有线性关系,意味着x无论是50岁,还是60岁,增加1个单位的情况下,血压增加的幅度都一致。否则,b1,不代表x是50岁时对血压的影响,也不代表60岁时对血压的影响。
回归分析无法去探讨无序多分类自变量与结局的关系
最令人棘手的是,无序分类数据的问题。它与应变量之间根本不存在线性关系的可能。
例1: Hosmer和Lemeshow于1989年研究了低出生体重婴儿的影响因素,结果变量为是否娩出低出生体重儿,考虑的自变量有产妇妊娠前体重、产妇年龄、种族、是否吸烟、早产次数、是否患高血压等。(数据文件见:logistic_step.sav。)
该数据库中有一个变量为种族,变量值为白人/黑人/其他人,为无序多分类资料(赋值分别是1、2、3)。如果该变量纳入回归模型,怎么解读回归系数b值呢?那么就是自变量从1到2对y的影响和从2到3影响的平均值。也就是白人到黑人,黑人到其他人种变化带来的影响的平均值。这个结果无法说明任何问题,既不能说明黑人相对白人出生缺陷的严重性,也不能说其他人种的影响。这个变量是无序分类变量,各变量之间没有等级关系。因此,取平均值没有任何实际意义。
因此,无序多分类变量不能直接纳入回归开展分析。
回归分析的哑变量设置
对于种族的影响,其实研究最想知道的是,(1)相对白人,黑人出生缺陷风险会提升多少? (2)相对白人,其它人种出生缺陷风险会提升多少? 因此,一个变量需要回答两个问题,最好的办法是把这个变量分为两个子变量,分别计算b值和OR值,这个子变量便是哑变量。
一般情况下,哑变量个数是原变量分类数的n-1个,比如种族变量是3分类变量,则一个种族变量产生了2个二分类(变量值为0、1)哑变量。这些哑变量是过程性变量,一般不体现在原始数据库中,但它们作为实体变量代替原变量进入到回归模型中。
<