别再混淆 “分位数回归和分组回归以及将y按分位数分组回归的区别”

本文对比了分位数回归和分组回归这两种统计方法,前者关注自变量对因变量分布各分位数的影响,后者则探究不同组别间的回归系数差异。两者的应用场景和侧重点各有侧重,理解它们的区别有助于更准确的数据分析。
摘要由CSDN通过智能技术生成

前言

分位数回归(Quantile Regression)和分组回归(Grouped Regression)是统计学和计量经济学中用于研究变量之间关系的两种不同方法。虽然它们都可以用于探索和解释数据集中的变异性,但它们的应用背景、目的和方法学上有本质的区别。

分位数回归

分位数回归是一种回归分析方法,它允许研究者估计自变量对因变量不同分位数(如中位数、四分位数等)的影响。与传统的最小二乘回归(OLS)不同,它不仅仅关注平均效应,而是提供了一种更全面的视角,通过分析因变量的整个分布来理解自变量的影响。

  • 优点:能够揭示自变量对因变量分布不同位置的影响,特别是当因变量的分布不均匀或存在异常值时,分位数回归提供了比OLS更稳健的估计。
  • 应用场景:在经济学、医学、环境科学等领域中广泛应用,尤其适用于研究条件中位数或其他特定条件分位数的因果关系。
数学原理

分位数回归旨在估计条件分位数函数,尤其是因变量 Y Y Y 的第 τ \tau τ
分位数对自变量 X X X的依赖关系。对于给定的分位数 τ ( 0 < τ < 1 ) \tau(0<\tau<1) τ(0<τ<1),分位数回归模型可以表达为:
Q Y ( τ ∣ X ) = X β ( τ ) Q_Y(\tau|X)=X\beta(\tau) QY(τX)=(τ)
其中,

  • Q Y ( τ ∣ X ) Q_Y(\tau|X) QY(τX)是给定X下Y的第 τ \tau τ分位数。
  • X β ( τ ) X\beta(\tau) (τ)分位数回归系数它的含义是反映X变化一个单位时 Y Y Y的第 t t t个分位数如何变化。
原理步骤

目标函数:分位数回归通过最小化残差的加权和来估计系数,其中权重取决于选择的分位数 τ \tau τ
m i n β τ Σ i = 1 n ρ τ ( y i − X i β ( τ ) ) min\beta_{\tau}\Sigma^{n}_{i=1}\rho_{\tau}(y_i-X_i\beta(\tau)) minβτΣi=1nρτ(yiXiβ(τ))
其中, ρ τ ( u ) = u ( τ − I ( u < 0 ) ) , I \rho_{\tau}(u)=u(\tau-I(u<0)),I ρτ(u)=u(τI(u<0)),I是示性函数。
求解:通过数值方法(如线性规划)求解上述优化问题,得到对应分位数的系数估计 β ( τ ) \beta(\tau) β(τ)

分组回归

分组回归是将总体样本根据一定的标准(如地区、时间、性别等)划分为几个组,然后对每个组分别进行回归分析的一种方法。这种方法能够帮助研究者探究不同组别之间是否存在显著的回归系数差异,从而评估变量间关系的异质性。

  • 优点:能够识别并分析不同群体或条件下变量之间关系的差异,对于研究异质性影响特别有用。
  • 应用场景:在政策评估、社会科学、商业分析等领域中应用,尤其适合于研究某一政策或干预措施在不同群体中的效果差异。
数学原理

分组回归分析涉及将样本根据某一或多个分类变量划分为不同组,然后对每个组独立地进行回归分析。假设有 G G G个组,对于第 g g g组的回归模型可以表达为:
Y g = X g β g + ϵ g Y_g=X_g\beta_g+\epsilon_g Yg=Xgβg+ϵg
其中,

  • Y g Y_g Yg是第 g g g组的因变量;
  • X g X_g Xg是第 g g g组的自变量;
  • β g \beta_g βg是第 g g g组的回归系数;
  • ϵ g \epsilon_g ϵg是误差项。
原理步骤
  • 样本划分:根据研究设计的需要,将总体样本划分为若干个组。

  • 独立回归分析:对每个组独立地进行标准的回归分析,估计各自的回归参数 β g \beta_g βg

  • 比较分析:比较不同组之间的回归系数,分析自变量对因变量影响的异质性。

核心区别

研究焦点:分位数回归关注于自变量对因变量分布不同位置(分位数)的影响,强调在整个因变量分布上的异质性效应;而分组回归关注于不同组别或条件下的回归系数差异,研究的是群体间的异质性

数据划分依据:分位数回归是基于因变量的分布进行分析,不需要事先对样本进行分组;分组回归则是根据某些特征(如性别、年龄段、地区等)将样本分成不同的组,然后对每组数据进行独立分析。

方法学侧重点:分位数回归提供了一种非参数估计方法适用于因变量分布不对称或含有异常值的情况;分组回归更多关注参数估计,通过比较不同组的回归参数来探究异质性

特别地【将y按分位数分组回归】

经常我们在计量经济学中,喜欢把y或者x按照分位数分别进行回归,然后把这个叫做分位数回归
实际上,这种方式其实是分组回归的策略,内涵不是分位数回归本身,一定要注意严谨。
本质上属于在不同的因变量水平(即分组)上分别探究自变量和因变量之间的线性关系,因此更接近于分组回归的思路。

  • 17
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Wency(王斯-CUEB)

我不是要饭的

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值