多项logistic回归系数解释_多元回归系数:我们都解释错了?

ebdf1d384c1729fff02f7330c51250de.png
作者:金钊 (中山大学) E-Mail: 980510243@qq.com

连享会-知乎推文列表


Note: 助教招聘信息请进入「课程主页」查看。

因果推断-内生性 专题 ⌚ 2020.11.12-15
主讲:王存同 (中央财经大学);司继春(上海对外经贸大学) 课程主页https://gitee.com/arlionn/YG | 微信版

5bfbcadb2f033f34d231460a26320077.png
空间计量 专题 ⌚ 2020.12.10-13
主讲:杨海生 (中山大学);范巧 (兰州大学) 课程主页https://gitee.com/arlionn/SP | 微信版

e124af74ab38bc940e6f9b368e452119.png

目录

  • 1. 引言
  • 2. 多元线性回归系数的常见误解
    • 2.1 多元线性回归计量模型
    • 2.2 多元线性回归系数的图形解释
    • 2.3 多元线性回归系数的代数和矩阵解释
    • 2.4 常见的错误解读
    • 2.5 正确的解释
  • 3. Stata 命令:margins 运用问题
  • 4. 小结
  • 参考文献
  • 附:文中所用代码
    • 课程一览

编者按: 在 Stata Journal ( 各期 SJ) 2016 年第 1 期中连续登载了 4 篇「 吵架」论文。其中,首篇为 David Hoaglin 撰写的长文 (p.5-22),题为「Regressions are Commonly Misinterpreted」。从标题上来看,这无异于「挑战」我们的常识。三位知名的计量经济学家 (James Hardin, Scott Long, David Drukker) 撰写了两篇短文对此进行评论/批评。而同期第四篇论文刊登的就是 David Hoaglin 的「反驳 (Rejoinder)」。显然,这四篇文章是 Stata Journal 的编辑们蓄意之作,同时,也凸显出此问题的重要性。本文对其中的一些核心观点进行梳理,感兴趣的读者可以阅读原文以便品尝原味红茶。
  • Hoaglin David C., 2016, Regressions are Commonly Misinterpreted, Stata Journal, 16(1): 5–22. [PDF]
  • Hardin James W. , 2016, Regressions are Commonly Misinterpreted: Comments on the Article, Stata Journal, 16(1): 23–24. [PDF]
  • Long J. Scott, David M. Drukker, 2016, Regressions are Commonly Misinterpreted: Comments on the Article, Stata Journal, 16(1): 25–29. [PDF]
  • Hoaglin David C., 2016, Regressions are Commonly Misinterpreted: A Rejoinder, Stata Journal, 16(1): 30–36. [PDF]
同主题阅读:
  • 连享会 - 回归分析专题
  • 图示线性回归系数:Frisch-Waugh定理与部分回归图
  • 多元回归系数:我们都解释错了?
  • 加入控制变量后结果悲催了!
  • 如何比较解释变量的系数相对大小?
  • R2分解:相对重要性分析 (Dominance Analysis)
  • 残差是个宝:盈余管理、过度投资、超额收益怎么算?

1. 引言

多元回归模型一直被广泛运用,也是最常见和最基础的计量模型。多元回归模型中各个变量间关系相对复杂,其回归系数惯常解释为:

当其他变量保持不变或控制其他变量不变时,
每改变一个单位时因变量
的平均变化量。

然而,Hoaglin (2016) 指出,这种常见的解读存在错误。这些问题常常出现在 OLS 回归、logistic 回归和其他广义线性模型以及生存分析、纵向分析和层次分析回归中。

Hoaglin (2016) 认为,这些解释既没有体现多元回归的基本原理,也不符合现实情况。他从图形、多元正态分布和最小二乘几何特征等角度解释「控制」和「保持不变」的不适性。为此,他们提出一直全新的解释「调整

和其他预测因子对
的共同线性影响后,
每改变一个单位时因变量
的平均变化量」。

2. 多元线性回归系数的常见误解

2.1 多元线性回归计量模型

我们常见的多元回归的总体 (population) 模型为:

其中,

为解释变量或预测因子;
为被解释变量或响应变量。我们通常令第一个解释变量为单位向量,即
为待估参数,称为「回归系数」(regression coefficients)。

在多元回归中,预测因子间不可能是完全独立的,每个回归系数的下标应该包含方程中的其他预测因子。为此,预测因子

的回归系数可以写为:
,第一个下标表示响应变量,第二个下标表示系数所附的预测因子,而在「·」之后的下标表示其他预测因子。则回归模型可以变为:

运用数据可以对回归系数

进行估计,可以得到估计值
。则 (2) 的拟合方程为:

为残差,
的观测值。在多元回归中,每个预测因子的系数都说明了其他预测因子的贡献,也就是说,它反映了对这些预测因子的调整。

2.2 多元线性回归系数的图形解释

我们运用 Stata 自带的 1978 汽车数据集 auto.dta 中的进口汽车 (foreign) 数据来解释多元回归系数估计值的含义。

首先,我们把汽车的百英里油耗 (100/mpg) 当作被响应变量,汽车的重量 (weight) 和排量 (displacement) 为预测因子。通过散点图 (图 1),我们可以看到汽车油耗与重量和排量的相关性很高,汽车的重量和排量的相关性也很强。

. sysuse auto, clear
(1978 Automobile Data)

. generate gp100m = 100/mpg

. label var gp100m "Gallons per 100 miles"

*-相关系数
. pwcorr gp100m weight displacement if foreign==1

             |   gp100m   weight displa~t
-------------+---------------------------
      gp100m |   1.0000 
      weight |   0.8172   1.0000 
displacement |   0.8444   0.9507   1.0000 

*-散点图矩阵
. graph matrix gp100m weight displacement if foreign==1

37639992ba0704f8d71e7b53e7ee0ddc.png
图 1 汽车油耗、重量和排量的散点图矩阵

首先,我们看二元回归的估计结果如下,可以发现汽车重量回归系数的估计值为 0.396,而汽车排量回归系数的估计值为 0.032。

. regress gp100m weight displacement if foreign == 1

      Source |       SS       df       MS      Number of obs  =      22
   ----------+------------------------------   F(2, 19)       =   23.86
       Model |  19.6704568   
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: SPSS多元有序logistic回归是一种统计分析方法,用于探究多个自变量对有序分类因变量的影响。该方法可以用于预测和解释有序分类变量,例如教育程度、收入水平等。在SPSS软件中,可以通过输入数据、选择变量、设置模型参数等步骤来进行多元有序logistic回归分析。 ### 回答2: SPSS多元有序logistic回归是一种常用的统计方法,用于研究多个自变量对有序因变量的影响。有序因变量是指具有连续有序属性的变量,例如教育水平、收入水平等。多元有序logistic回归的目的是预测有序因变量的分类,其结果以概率值的形式给出。这种方法通常用于研究社会科学或医学领域的问题,例如预测患者的疾病状态或预测个人的职业选择。 在SPSS中进行多元有序logistic回归分析,需要先进行数据准备和变量选择。数据准备可以包括数据的清洗和变量的缺失值处理,确保数据质量良好。变量选择可以通过相关性分析和变量筛选的方法,挑选出与因变量显著相关的自变量。 接着,可以使用SPSS中的多元有序logistic回归模型进行建模。在建模过程中,需要选择适当的模型形式,并指定模型的参数和假设。模型形式可以是二元logistic模型或probit模型,参数和假设可以有多种选项,例如系数估计、常数项和方差分析等。 建模完成后,可以使用SPSS的输出结果进行解释和结果验证。具体的验证方法可以包括模型诊断和结果的显著性检验等。在解释结果时,需要综合考虑各自变量的贡献和因变量分类的概率,以评估模型的预测能力和可靠性。 总而言之,SPSS多元有序logistic回归是一种非常重要和有用的统计方法,可用于研究多个自变量对有序因变量的影响。该方法需要注意数据准备和变量选择,以及模型建立和结果验证,以确保结果的质量和可靠性。 ### 回答3: SPSS多元有序logistic回归是一种广泛用于研究多种变量与有序分类响应变量之间关系的统计方法。它可以通过构建有序分类变量的概率模型来对有序变量进行预测和分类。 在这种方法中,有序变量被分为多个有序类别,每个类别之间有明确的顺序关系。例如,在教育研究中,学生可以被分为三个成绩等级,A、B、C,他们之间有明确的顺序关系。而使用有序logistic回归,可以确定不同的自变量与不同等级的学生成绩之间的关系。 在多元有序logistic回归中,有多个自变量进行相关分析,以预测分类变量的分类。通过最大化对数似然函数得到最佳拟合模型,并且可以使用展开系数或奥斯卡系数来推导每个自变量对响应变量的影响。值得注意的是,多元有序logistic回归需要保证数据符合前提条件,其中包括响应变量是有序的,不存在共线性,误差项服从logistic分布等。 在实际应用中,多元有序logistic回归在社会科学、医药研究、金融和市场研究等领域得到广泛应用。它可以解释不同的因素如何影响分类变量,并对研究对象进行更深入的理解。此外,在利用SPSS进行数据分析时,多元有序logistic回归方法也特别适用于研究具有顺序等级的定量变量。因此,对于SPSS用户来说,多元有序logistic回归是一种非常有用的分析工具,可以帮助他们更好地处理和理解分类数据。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值