Source: WHAT HAPPENS IF YOU OMIT THE MAIN EFFECT IN A REGRESSION MODEL WITH AN INTERACTION?
2020寒假Stata现场班
北京, 1月8-17日,连玉君-江艇主讲
2020连享会-文本分析与爬虫-现场班
西安, 3月26-29日,司继春-游万海 主讲; (附助教招聘)
连享会计量方法专题……
对于一个带交乘项 (interaction term) 的线性回归,我们一般会通过命令
regress y x1 x2 x1#x2
来进行回归分析。该回归不仅包括交乘项 (x1#x2
) 而且保留了主效应 (x1 x2
)。本篇推文讨论的问题是,
当引入交乘项后,保留全部的主效应项是否必要?忽略一个或者全部的主效应项是否可行?
对于该问题,首先要明确引入主效应项和交乘项的目的何在。引入主效应项是为了区分截距,而引入交乘项是为了区分斜率。在接下来的分析中,我们会进一步阐述这句话背后的具体含义。
基于此,对于该问题的回答应为“分情况讨论”。
-
类别变量相互交乘:可以去掉主效应项,但系数含义不同。
-
类别变量与连续型变量相互交乘:(1)可以去掉连续型变量主效应项,但系数含义发生改变;(2)一般情况下,不可以去掉类别变量主效应项
-
连续型变量与连续型变量相互交乘:一般情况下,不可以去掉主效应项
下面,我们通过几个实证的例子来进一步解释说明。
1. 实例 1:类别变量相互交乘 (categorical by categorical interaction)
首先,导入数据
. use https://stats.idre.ucla.edu/stat/data/hsbanova, clear
(highschool and beyond (200 cases))
. d
variable name type format label variable label
-----------------------------------------------------------------------------------------------------------------------
id float %9.0g
female float %9.0g fl
read float %9.0g reading score
write float %9.0g writing score
math float %9.0g math score
science float %9.0g science score
socst float %9.0g social studies score
honors float %19.0g honlab honors english
grp float %9.0g grp
-----------------------------------------------------------------------------------------------------------------------
Sorted by:
该数据记录了不同个体的性别信息 (female),组别信息 (grp),以及不同科目的成绩信息(read, write, math, science, socst, honors) 。
数据结构如下所示。
. list in 1/10
+----------------------------------------------------------------------------+
| id female read write math science socst honors grp |
|----------------------------------------------------------------------------|
1. | 45 female 34 35 41 29 26 not enrolled grp1 |
2. | 108 male 34 33 41 36 36 not enrolled grp2 |
3. | 15 male 39 39 44 26 42 not enrolled grp1 |
4. | 67 male 37 37 42 33 32 not enrolled grp1 |
5. | 153 male 39 31 40 39 51 not enrolled grp1 |
|----------------------------------------------------------------------------|
6. | 51 female 42 36 42 31 39 not enrolled grp2 |
7. | 164 male 31 36 46 39 46 not enrolled grp1 |
8. | 133 male 50 31 40 34 31 not enrolled grp1 |
9. | 2 female 39 41 33 42 41 not enrolled grp1 |
10. | 53 male 34 37 46 39 31 not enrolled grp1 |
+----------------------------------------------------------------------------+
.
我们将既包含交乘项也包含主效应项的模型成为 “完整模型” (full model)。在这个例子中,我们对类别变量 female 以及类别变量 grp 进行交乘。
- 完整模型
. regress write i.female##i.grp
Source | SS df MS Number of obs = 200
-------------+---------------------------------- F(7, 192) = 11.05
Model | 5135.17494 7 733.59642 Prob > F = 0.0000
Residual | 12743.7001 192 66.3734378 R-squared = 0.2872
-------------+---------------------------------- Adj R-squared = 0.2612
Total | 17878.875 199 89.843593 Root MSE = 8.147
------------------------------------------------------------------------------
write | Coef. Std. Err. t P>|t| [95% Conf. Interval]