多元线性模型的分位数回归

一、为什么要使用分位数回归?

       众所周知,对于线性模型 Y = X β + ε Y=X\beta+\varepsilon Y=Xβ+ε,人们往往习惯于使用均值回归。但是均值回归往往更关注的只是均值,对于数据的“其他部位”往往照顾不够。有时不能较为客观地反映一组数据的各个层次的实际情况。比如我是一名还在读大三的本科生,我和当前的世界首富埃隆▪马斯克人均财富千亿美元级别,显然这个均值对于反映我的财富水平来说是毫无意义的,甚至是有信息误导的作用。但是如果试想使用分位数回归,那我就可以避免被马斯克平均了。
       我们知道在均值回归的普通最小二乘法中,我们是通过求残差的平方和最小来估计参数的。而在分位数回归中我们通常求残差的绝对值的加权求和最小来估计参数。就我目前了解,这样做的目的之一是减小离群点的大误差对整体回归估计的影响。例如,通常离群点处的残差是远远大于1的,在这种情况下残差的绝对值就要远小于残差的平方值,所以使用残差的绝对值可以减少离群点处的误差对整体回归的影响,而这也算是我们进行分位数回归的初衷之一。
       分位数回归通常是采用最小一乘法,而最小一乘法对误差项 ε \varepsilon ε并没有要求其服从正态分布,所以相比于均值回归通常采用的最小二乘法对误差 ε \varepsilon ε要求服从正态分布来说,最小一乘法的误差 ε \varepsilon ε更具有普遍性。
       总的来说相比于均值回归,(1)分位数回归对数据分布的情况掌握的更全面客观。(2)使用分位数回归,离群点对于数据整体的影响要比较使用均值回归小的多。所以我们也可以说分位数回归更加稳健。(3)分位数回归对于误差项更具有普适性。

二、分位数回归基本模型

Y ( θ ) = X β ( θ ) + ε ( θ ) (1) Y^{(\theta)}=X\beta^{(\theta)}+\varepsilon^{(\theta)} \tag{1} Y(θ)=Xβ(θ)+ε(θ)(1)
       其中 θ \theta θ为分位数,对于实随机变量 Y Y Y,其右连续分布函数为 F ( y ) = P ( Y ≤ y ) F(y)=P(Y\leq y) F(y)=P(Yy), Y Y Y θ \theta θ分位数函数为 F − 1 ( θ ) = i n f ( y : F ( y ) ≥ θ ) F^{-1}(\theta)=inf(y:F(y)\ge \theta) F1(θ)=inf(y:F(y)θ),也即第 100 θ % 100\theta\% 100θ% y y y
       其中, Y ( θ ) = [ y 1 y 2 ⋮ y n ] , X = [ 1 x 11 ⋯ x 1 p 1 x 21 ⋯ x 2 p ⋮ ⋮ ⋱ ⋮ 1 x n 1 ⋯ x n p ] β ( θ ) = [ β 0 β 1 ⋮ β p ] , ε ( θ ) = [ ε 1 ε 2 ⋮ ε n ] Y^{(\theta)}=\left[ \begin{matrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{matrix} \right] ,X=\left[ \begin{matrix} 1&x_{11}&\cdots&x_{1p} \\ 1&x_{21}&\cdots&x_{2p} \\ \vdots&\vdots&\ddots&\vdots \\ 1 &x_{n1}&\cdots&x_{np} \end{matrix} \right]\\ \beta^{(\theta)}=\left[ \begin{matrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{matrix} \right],\varepsilon^{(\theta)}=\left[ \begin{matrix} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{n} \end{matrix} \right] Y(θ)=y1y2yn,X=111

### 关于R语言中的分位数回归 #### R语言中实现分位数回归的方法 在R语言环境中,`quantreg`包是最常用的工具之一来执行分位数回归分析。该软件包由Roger Koenker开发并维护,提供了丰富的函数用于拟合各种类型的分位数回归模型[^1]。 安装和加载`quantreg`包可以通过以下命令完成: ```r install.packages("quantreg") # 安装 quantreg 包 library(quantreg) # 加载 quantreg 包 ``` 为了帮助理解如何应用这些技术,在此提供一段简单的示例代码片段展示基本操作流程: 假设有一个名为`data.frame`的数据框对象,其中包含了自变量X以及因变量Y,则可以按照如下方式构建一个简单的一元线性分位数回归模型: ```r fit <- rq(Y ~ X, data = df, tau = 0.5) # 构建中位数回归 (tau=0.5 表示求解第50百分位即中位数值) summary(fit) # 查看模型摘要信息 plot(df$X, df$Y) # 绘制散点图 abline(coef(fit)[1], coef(fit)[2]) # 添加回归直线到图表上 ``` 上述代码实现了最基本的单因素分位数回归过程;对于多维情况下的多元分位数回归同样适用,只需调整公式部分即可适应更复杂的情形。 此外,当处理金融风险评估等领域内的实际问题时,可能还会涉及到动态条件在险价值(Dynamic Conditional Value at Risk, DCVaR) 的计算等问题,此时可借助Adrian等人提出的基于分位数回归的方法来进行研究。 #### 学习资源推荐 针对希望深入了解这一主题的学习者而言,建议查阅官方文档和其他权威教材作为进一步阅读材料。例如,《Quantile Regression》一书不仅涵盖了理论基础还介绍了大量实用案例。 同时网络上有许多优质的博客文章和技术论坛帖子可供参考学习,比如知乎专栏、CSDN博客等平台上的相关内容往往具有较高的实用性与易读性。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值