哑变量又称虚拟变量(Dummy Variable),又称虚设变量、名义变量或哑变量,是量化了的质变量,通常取值为0或1。
在研究一个因变量的时候,解释变量中除了定量变量,有时候会有一些定型变量,比如性别、年龄、宗教、民族、婚姻状况、教育程度等。这些定性变量也可以成为指标变量、二元变量或分类变量。此时需要使用虚拟变量。
模型中引入虚拟变量的作用 1、分离异常因素的影响,例如分析我国GDP的时间序列,必须考虑“文革”因素对国民经济的破坏性影响,剔除不可比的“文革”因素。
2、检验不同属性类型对因变量的作用,例如工资模型中的文化程度、季节对销售额的影响。
3、提高模型的精度,相当与将不同属性的样本合并,扩大了样本容量(增加了误差自由度,从而降低了误差方差)
虚拟变量设置的原则 在模型中引入多个虚拟变量时,虚拟变量的个数应按下列原则确定: 如果有m种互斥的属性类型,在模型中引入(m-1)个虚拟变量。
引入哑变量可使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到俩个方程的作用,而且接近现实。
如果某个因素有n种选择,则将其用哑变量引入模型时,要设置n-1个哑变量,以避免完全的多重共线性。如性别的选择有两种,则引入一个哑变量,是男则数值为1,否则为0,当然也可以设置为女为1,否则为0。季节的选择有4个,则引入3个哑变量,哑变量1:春为1,否则为0.哑变量2:夏为1,否则为0.哑变量3:秋为1,否则为0
SPSS的具体操作
Recode——into diff