分位数回归—R语言实现

      大家好,我是带我去滑雪,每天教你一个小技巧!

分位数回归—R语言实现

      1、分位数基本介绍——什么是分位数?

 2、分位数回归用途——为什么要使用分位数回归?

3、图形分析——如何进行分位数回归图像分析?

4、分位数回归原理——如何进行分位数回归?

 5、分位数回归的假设检验——能不能用?好不好?

 6、简单线性分位数回归实例——分位数回归R实操


1、分位数基本介绍——什么是分位数?

fa907edd6b5341e490a3087715613898.png

 2、分位数回归用途——为什么要使用分位数回归?

       传统的线性回归模型描述了因变量的条件均值分布受自变量X的影响过程。其中,最小二乘法是估计回归系数的最基本方法。如果模型的随机误差项来自均值为零、方差相同的分布,那么回归系数的最小二乘估计为最佳线性无偏估计;如果随机误差项进一步服从正态分布,那么回归系数的最小二乘估计与极大似然估计一致,均为最小方差无偏估计。此时它具有无偏性、有效性等优良性质。

        但是在实际的经济生活中,这种假设通常不能够满足。例如当数据中存在严重的异方差,或后尾、尖峰情况时,最小二乘法的估计将不再具有上述优良性质。最小二次估计假定解释变量x只能影响被解释变量的条件分布的均值的位置,不能影响其分布的刻度或形状的任何其他方面。分位数回归的条件更加宽松。

3、图形分析——如何进行分位数回归图像分析?

假如,现在有一个如下散点图分布的数据,对其进行普通的回归分析,得到:

e81fe8e4a68f48b39e1abd4c412e9875.png

       从拟合的曲线我们就可以看出问题了,原数据随着x增大,y的分布范围越来越大,可是因为普通的回归分析得到的是条件期望函数,也就是y的期望,所以平均即使y的分布变化了,平均来说y还是以同样的斜率稳定上升。

当我们使用0.9分位数回归,重新得出新函数图像:

830162a544aa4d4484bf8e38084f5469.png

        这次,比起普通的回归分析,就能进一步显示出y的变化幅度其实是增大了。所谓的0.9分位数回归,就是希望回归曲线之下能够包含90%的数据点(y),这也是分位数的概念,分位数回归是把分位数的概念融入到普通的线性回归而已。

       进一步的我们可以画出不同的分位数回归曲线,这样才能能更加明显地反映出,随着x的增大,y的不同范围的数据是不同程度地变化的,而这个结论通过以前的回归分析是无法得到的,这就是分位数回归的作用。

0a1ae7c0aabe428c9ccff52c5efb44b4.png

        在实际研究中,例如研究社会的贫穷情况可能就会选择收入相对较低的群体即收入水平的低分位点,而研究制定税收政策会关注高收入人群即收入水平的高分位点。

4、分位数回归原理——如何进行分位数回归?

3e04e5907fcf4a5a9a22bff715d223c6.png

78acab5065284c859485105198a772a3.png

e1aaae352fb746fca4aefe6b10a00e87.png

 5、分位数回归的假设检验——能不能用?好不好?

       分位数回归估计的检验包括两部分:一是与均值回归类似的检验,例如拟合优度检验、回归约束检验;二是分位数回归估计特色要求的检验,如斜率相等检验、斜率对称性检验。

6b556a0c918f4ebcb874cdf7ad8e3478.png

ff8a10e6fe8b443c86cc00b00d4cabb2.png

e03c54e6713744eaa9797b612c935851.png

 6、简单线性分位数回归实例——分位数回归R实操

install.packages("quantreg")

library(quantreg)#导入分位数回归的包

data(engel)# 引入数据

mode(engel)#查看数据格式

names(engel)#查看变量名

head(engel)#查看数据的前五行

plot(engel$income,engel$foodexp)#画个散点图

5538e34969bd4c559792c82a78021757.png

      可以看出,数据随着x的增大,y的分布范围越来越大。

#简单验证一下因变量foodexp是否服从正态分布

plot(density(engel$foodexp))

632fdf6558d4482c8d25d711ae337977.png

       可以看出y是右偏分布。

qqnorm(engel$foodexp, main='QQ plot')

qqline(engel$foodexp, col='red', lwd=2)

c52925d84fb847058c050b81a1749266.png

         结果呈一条直线才能说明大致服从正态分布,显然因变量foodexp明显不服从正态分布,但是,分位数回归不要求y服从正态分布,不仅如此,而且分位数回归还对异常值点不敏感。

下面我们继续,为了对比,我们做一个均值回归,再做一个分位数回归。

#设置0.05, 0.25, 0.5, 0.75, 0.95五个分位点,并且rq函数进行分位数回归,这样可以得到五条分位数回归线

rq_result <- rq(foodexp ~ income, tau=c(0.05, 0.25, 0.5, 0.75, 0.95))

summary(rq_result,se="nid")#系数的假设检验,se指定用于计算标准误差的方法

68f5929902c540f9bfa3ee7a74b4c506.png

 #上面就是每个分位点下回归线的回归系数,做个图看一下

plot(income, foodexp, cex=0.25, type='n', xlab='income', ylab='foodexp')

points(income, foodexp, cex=0.5, col='blue')

abline(rq(foodexp~income, tau=0.5), col='blue')#加中位数数回归的直线

abline(lm(foodexp~income), lty=2, col='red')#加均值回归线

taus <- c(0.05, 0.1, 0.25, 0.75, 0.9, 0.95)#将分位数回归线加上去

for (i in 1:length(taus)){

  abline(rq(foodexp~income, tau=taus[i]), col='gray')

7014e366aefc49348aeb82f0af9b76db.png

        红线为传统均值回归线,其余的为分位数回归线。从上图,可以看到,分位数回归可以拟合出多条直线,这个对于我们数据分布比较复杂的时候,很有用处,每条线反应了不同档次下,自变量与因变量的关系。

rq_result2 <- rq(foodexp ~ income, tau=1:98/100)#选取更多的分位点并作图

plot(summary(rq_result2,se="nid"))

05f996b742984d7f85b1adc9ad5d182c.png

3de977efc2894c72b3721c631aefa835.png

       可以看到,随着分位点的增大,自变量income对因变量foodexp的影响效果是逐渐增大的。


往期精彩内容推介:

1、python常用统计分析包 

https://blog.csdn.net/qq_45856698/article/details/129304015?spm=1001.2014.3001.5501

2、偏最小二乘估计优点与适用、原理、算法推导

https://blog.csdn.net/qq_45856698/article/details/129302607?spm=1001.2014.3001.5501

3、运用自回归滑动平均模型、灰色预测模型、BP神经网络三种模型分别预测全球平均气温,并进行预测精度对比(附代码、数据)

https://blog.csdn.net/qq_45856698/article/details/129286994?spm=1001.2014.3001.5501

4、运用python爬取股票的股吧评论、新闻报道(附完整代码)

https://blog.csdn.net/qq_45856698/article/details/129268092?spm=1001.2014.3001.5501

5、利用Python爬取房价信息(附代码)

https://blog.csdn.net/qq_45856698/article/details/129249555?spm=1001.2014.3001.5501


更多优质内容持续发布中,请移步主页查看。

若有问题可邮箱联系:1736732074@qq.com 

博主的WeChat:TCB1736732074

   点赞+关注,下次不迷路!

  • 16
    点赞
  • 65
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
线 性回归分析是一种重要的预测方法,目前已经广泛的应用于各种领域,在统 计学中,线性回归模型(Linear Regression Model,LRM)是利用称为线性回归方程的 最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。 在国内的金融市场中,当我们在对市场未来发展情况进行预测时,若能将影响市 场预测对象的主要因素找到,并且能够取得其数量数据,就可以采用线性回归分 析进行预测。它是一种可行的且实用价值很高的常用金融市场预测方法。一般而 言,回归分析模型有多种类型。依据自变量个数不同,可分为简单回归模型和多 元回归模型。在简单回归模型中,自变量只有一个,而在多元回归模型中,自变 量有两个以上。依据自变量和因变量之间的相关关系不同,又可分为线性回归模 型和非线性回归模型。 使用线性回归模型分析属于一般常态分布之数据,可获的理想的分析与预测 结果,但是在现实的数据往往隐含了一些极端值之数据,而这些极端值之数据是 研究社会科学的研究者所关注的对象,倘若使用线性回归模型以其平均值的概念 来概括这些极端值,会使得研究结果失真。然而,目前解决极端值之数据之模型, 大多采用(Koenker,1978)的分量回归模型且有许多相关文献可参考,但是分位数 的概念对于一般人而言较陌生,并且分位数回归模型较线性回归模型复杂不易理 解。因此,本书作者潘文超(Pan, 2017)教授在国际 SSCI 期刊” EURASIA Journal of Mathematics Science and Technology Education”第 13 卷第 8 期发表篇名为” A Newer Equal Part Linear Regression Model: A Case Study of the Influence of Educational Input on Gross National Income”,另外提出一种新的回归方法,本书 称之为”等分线性回归模型”(Equal Part Linear Regression Model, EPLRM),做法是将 数据以若干等分方式进行线性回归建模,如此便可以独立观察每一等分的模型趋 势,并且与一般线性回归做比较,目前已经有相关文献(Zhong, 2017;Deng, 2017)。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

(备考中,暂停更新)4.14 于武汉

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值