给属性赋值_赋值方法:虚拟变量 Dummy Coding

虚拟变量(Dummy Coding)在处理离散选择模型如Logit模型时至关重要。对于无序多项变量,有序多项变量及某些连续变量,转化为虚拟变量能提高模型解释性和准确性。选择虚拟变量参照组时,可选有特定意义、顺序水平或研究重点的类别。通过设置虚拟变量,避免了多项变量间关系的简化,确保模型更精确地反映变量影响。
摘要由CSDN通过智能技术生成

40373350e9dac77abc6d7f1a078e35f0.gif

点击上方蓝色字体,关注我们

6e795248e4e3d776e431085557ed795a.png

选择实验法获得的数据属于离散变量,因而使用离散选择模型进行分析,常见的是Logit模型。在使用中需要对获得数据进行处理,其中一个处理方式就是虚拟变量(Dummy Variable)的方式,有些也称之哑变量。

1、虚拟变量的概念

在利用多元线性模型进行回归时,如果解释变量X为连续性变量,那么回归系数β可以解释为:在其他解释变量不变的条件下,X每变动一个单位,所引起的被解释变量Y的平均变化量;

如果解释变量X为二项变量的离散变量,例如是否买房(1=是,0=否)、性别(男=1,女=0),则回归系数β可以解释为:其他解释变量不变的条件下,X=1(买房者)与X=0(不买房者)相比,所引起的解释变量Y的平均变化量。

这里要注意,解释变量为离散变量并不影响线性回归,而如果被解释变量是离散变量,而非连续变量的话,这时候就不能用多元线性模型进行回归,而需要用Logit模型这类离散选择模型。
  还是回到离散变量上,当解释变量X为多项变量时,例如职业、教育水平、血型、土地用途、农产品成熟度等等,此时仅用一个回归系数来解释多项变量之间的变化关系,及其对被解释变量的影响,就显得太不理想。
  此时,我们通常会将原始的多项变量转化为虚拟变量,每个虚拟变量只代表某两个级别或若干个级别间的差异,通过多元线性模型回归,每一个虚拟变量都能得出一个估计的回归系数,这样可以使回归结果更容易解释,并且更具有实际意义。

通过上述介绍,我们可以看出来虚拟变量事实上就是在回归模型中将一个多项变量变成多个二项变量。虚拟变量(Dummy Variable),又称为哑变量,顾名思义,它是由人为虚设的变量,通常取值为0或1,来反映某个变量的不同属性。对于有n个分类属性的多项变量,通常需要选取其中1个分类作为参照base,因此可以产生n-1个虚拟变量。
  将虚拟变量引入回归模型,虽然使模型中的解释变量数量增加很多,变得较为复杂,但这样能够更直观地反映该解释变量的不同属性对于被解释变量的影响方向和影响程度,也提高了模型的精度和准确度。

2. 需要设置虚拟变量的情况

2.1 对于无序多项变量,引入模型时需要转化为虚拟变量

例如血型这个属性,一般是A、B、O、AB四个类型,四个类型之间没有大小关系,为无序多项变量,通常情况下为了便于量化分析,常会将其赋值为1、2、3、4。
  从数字的角度来看,赋值为1、2、3、4后,它们似乎具备了从小到大的大小顺序关系,但事实上四种血型之间并不存在这种大小关系,它们之间应该是相互平等、相对独立的关系。因此如果按照1、2、3、4进行赋值并利用模型进行回归分析是不合理的,此时就应该将其转化为虚拟变量。

2.2 对于有序多项变量,引入模型时需要根据实际情况来确定

例如农产品的成熟程度,可以设置为轻、中、重度,可认为是有序多项变量,也通常会将其等距赋值为1、2、3或等比赋值为1、2、4等形式,通过赋值由小到大的数字关系,来体现成熟程度之间一定的顺序等级关系。

但需要注意的是,一旦赋值为上述等距或等比的数值形式,在某种程度上就是认为农产品的成熟程度也呈现了类似的等距或等比的关系。而事实上不同成熟程度之间并不存在严格的等距或等比数值关系,所以赋值为等距或等比的形式就显得不太合理,此时可以将其成熟度设定为虚拟变量进行量化。

2.3 连续变量进行变量转化时也可以根据情况设定为虚拟变量

很多人认为连续变量是可以直接带入到回归模型中即可,但有时我们还需要结合实际意义,对连续变量作适当的转换。例如年龄,直接作为连续变量带入模型时,其解释为年龄每增加一岁时对于被解释变量的影响。但年龄增加一岁,其产生的效应可能是很微弱的,实际意义不够明显。

这时可以将年龄这个连续变量进行离散化,按照10岁一个年龄段进行划分,如0-10、11-20、21-30、31-40等等,将每一组赋值为1、2、3、4,此时构建模型的回归系数就可以解释为年龄每增加10岁时对被解释变量的影响,现实的效应会明显一些,但是这种赋值还不是虚拟变量。这种赋值方式是基于一个前提,即年龄与解释变量之间存在着一定的线性关系。

但有时候可能会出现这种情况,例如在年龄段较低和较高的人群中,对某种产品的消费偏好比较高,而在中青年人群中,这种产品的消费偏好却相对较低,这样年龄和消费偏好之间呈现一个U型的关系而不是线性关系,此时再将年龄段赋值为1、2、3、4就进行线性回归就显得不太合理。
  因此,当我们无法确定解释变量和被解释变量之间的变化关系,将连续的解释变量离散化时,可以考虑转换为虚拟变量。

可能还有一种情形,就是由于不同分类之间划分的分解点是不等距的,此时赋值为1、2、3也不太符合实际情况,这样也可以考虑将其转换为虚拟变量。

3. 如何选择虚拟变量的参照组

之前提到,对于有n个分类的解释变量,需要产生n-1个虚拟变量,当所有n-1个虚拟变量取值都为0的时候,这就表示该变量是第n类属性,即将这类属性作为参照base。也可以看出,只是设置n-1个虚拟变量而不是n个是为了避免多重共线性。
  以职业属性为例,将其分为学生、农民、工人、公务员、其他共5个分类,设定了4虚拟变量,其中职业属性中“其它”这个属性作为参照的话,当职业属性为“其它”时,4个虚拟变量的赋值均为0,在模型回归之后进行回归系数解释时,所有类别虚拟变量的回归系数,均表示该虚拟变量与参照相比之后对虚拟变量的影响。那么在设定虚拟变量时,应该选择哪一类作为参照呢?

3.1 一般情况下,可以选择有特定意义的,或者有一定顺序水平的类别作为参照

例如,婚姻状态分为未婚、已婚、离异、丧偶等情况,这种可以选择有特定意义的,将“未婚”作为参照;或者如学历,分为小学、中学、大学、研究生等类别,这种存在着一定的顺序,可以将最小的“小学”作为参照,回归系数更容易进行解释。

3.2 可以选择现实意义中的正常水平作为参照

例如,农产品的成熟程度,可以分为轻、中、重度类别,此时可以选择“中等”作为参照,其他分类都与正常中等成熟进行比较,更具有实际意义。

3.3 还可以将研究者所关注的重点类别作为参照

例如农产品的产地,分为中国、欧洲、美国、澳洲四个类型,研究者更关注中国的农产品,因此可以将中国作为参照,来分析其他产地与中国相比后对于结局产生影响的差异。

8a1914a5f5f4ea3bf1036d876e4d5c5e.png

42c4c5de32f33aeeeaa4f301e22c6f1e.png

e15093472639508391709a36f35cbf28.png

8bf64aee454c0fa5fa29292d8734914a.png

95d080ba0fa6020e8f6139f3f3f16aa6.png

d9137006b3073935798b8f1e508f5fd7.png

版权声明:本文为博主原创文章,这里仅略做变化,本文链接:https://blog.csdn.net/weixin_42715356/article/details/82924665

精彩推荐

选择实验设计的方式

正交实验设计过程

选择实验的主要步骤

选择实验应用的部分实例

让我知道你在看

4c6914d7a5d43319bfbb56f88089227a.gif
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值