虚拟变量的方法介绍及python实现方式

虚拟变量的定义作用

计量经济学中对虚拟变量给出了定义、作用及使用场景,进一步的深入了解可以系统性学习。

定义:虚拟变量 ( Dummy Variables) ,用以反映无法定量度量的因素,譬如性别对收入的影响,是量化了的质变量,通常取值为0或1。

另外一些名字:又称哑变量、虚设变量、名义变量、属性变量、双值变量、定性变量、二院型变量等

作用:引入哑变量可使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到两个方程的作用,而且接近现实

简单点说,如果有一个数据字段“性别”,里面只有两个元素“男”、“女”,那么转换成为0(男)、1(女)的量化方式,并将每个元素形成一列,便是虚拟变量。譬如:

image

虚拟变量模型

模型定义

image

引入到模型有两种基本方式:

image
image
image

虚拟变量的设置原则

若定性因素有m个相互排斥的类型或属性,只能引入(m-1)个虚拟变量,否则会陷入"虚拟变量陷阱",产生完全共线性。(如果f(x)没有截距项,应引入m个虚拟变量)

一般情况,虚拟变量取“0”值代表比较的基准

虚拟变量在单一方程中,可以作为解释变量,也可以作为被解释变量

image
image
image
image
image

python的几种实现方式

准备工作,载入相关的包,准备数据集

import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder,LabelEncoder
oenc=OneHotEncoder(sparse=False)
lenc=LabelEncoder()
store=pd.DataFrame({'gender':[0.0,11.0,'unknow']})

image

方式1:通过pandas中的get_dummies生成,

dummies = pd.get_dummies(store['gender'], prefix='gender' )
df=pd.concat([store,dummies],axis=1)
print(df)

image


# 通过apply自己构建
df1=store.copy()
for col_feat in df1.gender.unique():
    add_col='gender_{}'.format(col_feat)
    df1[add_col]=df1['gender'].apply(lambda x:1 if x==col_feat else 0)
print(df1)

image

# one-hot 先序列化,然后再做独热编码
arr=np.array(store[['gender']].astype(str)).ravel()
lenc_code=lenc.fit_transform(arr)
oenc_code=oenc.fit_transform(lenc_code.reshape(-1,1))
add_col=list(map(lambda x:'gender_{}'.format(x),np.unique(arr)))
df_onehot=pd.concat([store,pd.DataFrame(oenc_code,columns=add_col)],axis=1)
print(df_onehot)

image

参考《计量经济学:虚拟变量模型》

  • 10
    点赞
  • 58
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

郑小柒是西索啊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值