哑变量 dummy variable(也相当于对数据分类)
何时引入哑变量
顺序变量如(高,中,低)可按比例引入值(如1,3,5)
而分类变量,或连续变量的划分:(如:1-10,11-20,21-30……)则可引入哑变量
引
入
哑
变
量
后
,
可
以
降
低
D
e
,
拟
合
效
果
较
好
引入哑变量后,可以降低D_e,拟合效果较好
引入哑变量后,可以降低De,拟合效果较好
(
男
,
女
)
⇒
(
0
,
1
)
(男,女)\Rightarrow (0,1)
(男,女)⇒(0,1)
(
春
,
夏
,
秋
,
冬
)
以
冬
天
为
参
照
D
1
=
{
1
春
0
其他
D
2
=
{
1
夏
0
其他
D
3
=
{
1
秋
0
其他
(春,夏,秋,冬) 以冬天为参照\\D_1= \begin{cases} 1& \text{春}\\ 0& \text{其他} \end{cases} D_2= \begin{cases} 1& \text{夏}\\ 0& \text{其他} \end{cases} D_3= \begin{cases} 1& \text{秋}\\ 0& \text{其他} \end{cases}
(春,夏,秋,冬)以冬天为参照D1={10春其他D2={10夏其他D3={10秋其他
一
般
用
n
−
1
个
变
量
描
述
n
个
属
性
一般用n-1个变量描述n个属性
一般用n−1个变量描述n个属性
Y
=
β
0
+
β
1
x
+
ε
↓
Y
=
β
0
+
β
1
x
+
β
2
D
+
ε
则
E
(
Y
∣
D
=
0
)
=
β
0
+
β
1
x
E
(
Y
∣
D
=
1
)
=
β
0
+
β
1
x
+
β
2
Y=β_0+β_1x+ε\\ \downarrow \\ Y=β_0+β_1x+β_2D+ε \\ 则E(Y|D=0)=β_0+β_1x \quad E(Y|D=1)=β_0+β_1x+β_2\\
Y=β0+β1x+ε↓Y=β0+β1x+β2D+ε则E(Y∣D=0)=β0+β1xE(Y∣D=1)=β0+β1x+β2
多个
Y = β 0 + β 1 x + ε ↓ Y = β 0 + β 1 x + β 2 D 1 + β 3 D 2 + ε Y=β_0+β_1x+ε\\ \downarrow \\ Y=β_0+β_1x+β_2D_1+β_3D_2+ε \\ Y=β0+β1x+ε↓Y=β0+β1x+β2D1+β3D2+ε
结 果 描 述 : 原 来 : 在 其 他 情 况 不 变 的 条 件 下 , x 增 加 1 , Y 增 加 β 1 现 在 : 其 他 条 件 不 变 时 , X = 1 与 X 全 等 于 零 ( 参 照 ) 相 比 , 所 引 起 Y 的 平 均 变 化 多 β 2 结果描述:\\原来:在其他情况不变的条件下,x增加1,Y增加β_1 \\ 现在:其他条件不变时,X=1与X全等于零(参照)相比,\\ 所引起Y的平均变化多β_2 结果描述:原来:在其他情况不变的条件下,x增加1,Y增加β1现在:其他条件不变时,X=1与X全等于零(参照)相比,所引起Y的平均变化多β2