将分类变量转换为哑变量组
前言
哑变量(DummyVariable)
- 引入哑变量的目的:将不能够定量处理的变量进行量化,在线性回归分析中引入哑变量的目的是,可以考察定性因素对因变量的影响;
- 理解:它是人为虚设的变量,通常取值为0或1,来反映某个变量的不同属性。对于有n个分类属性的自变量,通常需要选取1个分类作为参照,因此可以产生n-1个哑变量;
- 例子:假设变量“职业”的取值分别为:工人、农民、学生、企业职员、其他,5种选项,我们可以增加4个哑变量来代替“职业”这个变量,分别为D1(1=工人/0=非工人)、D2(1=农民/0=非农民)、D3(1=学生/0=非学生)、D4(1=企业职员/0=非企业职员),最后一个选项“其他”的信息已经包含在这4个变量中了,所以不需要再增加一个D5(1=其他/0=非其他)了;
- 注意:(1)哑变量方法只在离散型变量水平数较小时使用,一般在3个及以内。如一个人的年龄水平只有三个(青年、中年、老年)。
(2)由于哑变量的取值只有0和1,它起到的作用像是一个“开关”的作用,它可以屏