R课程论文分享:对平均分数线的多元回归分析

序言:

       一篇非常简单的基于R实现的课程论文,适合刚学R的小白同学看

正文:

(一)研究问题的角度叙述

        每一个夏天,伴随高考落幕,各大院校高考录取分数线的相关话题热度不断,志愿填报等衍生话题也不断引发舆论,呈现高度火热的全民关注状态。目前,国内对于高考录取分数线这一话题的研究主要围绕高考分数预测、考生能力素养与教育投资回报、地区均衡问题、唯分数论解决对策、分数线与院校等展开。录取分数线,既决定着考生是否能前往理想院校,也在一定程度反映院校的师资力量、教育投入等。

        郁悦[1]运用探索性数据分析的方法,讨论了高校所在地区对于高考择校的影响。丁瑜[2]采用教育统计学的相关方法,基于录取分数线对本科专业声誉进行了实证研究。李靖波[3]通过建立指标体系,衡量了录取分数线对于高校转型发展的影响。可见,在分数线与院校方面,更多地是研究录取分数线对院校产生的效用,而关于院校如何影响其录取分数线的研究还较少。

        基于此,本文关注各院校15年的平均录取分数线,拟运用R语言课程方法,将地区、院士、硕士点、重点学科、博士点、是否为985等信息作为自变量,拟合回归模型,解释他们对于院校分数线的影响。

notes: “而关于院校如何影响其录取分数线的研究还较少”这句话纯属当时写课程论文,对参考的论文的框架模仿哈哈!and 如果写论文的话,引用要用上角标,word里选中[i]右击编辑其字体,就可以调整了。

(二)数据基本描述

        在进行回归分析之前,需对现有的数据样本进行预处理和一定的基本描述。

        首先,在Excel中对“大学院校信息”文件作简单数据预处理,基于“所在地”和“地址”两列数据,按省份划分得到“地区”数据。接着,以“地区”为类别,分类统计了15年各地区院校总计的院士位数、硕士点数、重点学科数、博士点数、985院校数、211院校数、非211院校数,并以$acdmincian$mpkeyddpX985X211no211符号来代表。将数据导入RStudio中,作各地区轮廓图(见图1):

图 1 各地区轮廓图

        从图1我们可以很直观地得知,2015年北京地区院校变量各值明显偏高(注:no211 变量状态被图例遮挡,但由于其与mp等数值相差较大,故不影响此处分析)。这既与北京作为我国首都、教育资源相对更加丰富的事实有关,也与“大学院校信息”样本数据搜集并非全面相关。但不可否认的是,北京地区所具有院校信息是最丰富的,后续对地区影响进行分析时,我们将基于北京构造具有哑变量的模型。

notes: 当时因为作图能力的问题,编造了”数值相差较大不影响此处分析“的鬼话。

(三)模型估计、求解与分析

        对1169条数据进行缺省值处理,433条可用于研究,样本量大于300,满足条件。

notes: 满足的是课程论文的数据要求哈哈

1、2015年平均录取分数线的总体估计

        将keyddpmp$acdmincian$作为解释变量,根据输出结果,得到估计的多元线性回归方程为:

        五个变量经t检验在统计上也都是显著的,符号方向都为正,这与实际是相符合的。一个院校,其院士数、博士点、硕士点、重点学科数量越多,说明该校的教育资源就越丰富,相关的资金投入也就越多,往往学校也是约好的,学生自然就愿意选择这样的学校,需求增大,高考录取分数线自然也就越高。

notes: 当时刚好在学计量经济学,所以模仿计量的写法,实际上可以不用写小括号里的

notes:在茆书里对于多元提了一嘴,在模型检验上经推广F检验仍适用,但t检验×;周纪芗老师《实用回归分析方法》里有用到偏回归平方和(F统计量也和一元的结构是一样的);所以我其实也有疑惑,因为软件常常直接都输出t统计量值,有没有懂的小伙伴评论区留言一下!

        并且值得注意的是,$acdmincian$对于录取分数线的影响最大,其意味着每增加一位院士,该院校的高考录取分数线将提高1.16015分,这是一个不小的影响。这一结论与朱民[4]关于高校要成为科技创新人才培养和聚集的主战场相同,一流的科技创新人才为学生们带来一流的教育,切实让高校人才培养的成果转化为创新发展的驱动力。

2、不同院校2015年平均录取分数线的比较

        引入哑变量,控制重点学科数、博士点数等变量,比较985院校、211院校、非211院校2015年平均录取分数线,回归方程如下:

        可见第二个估计并不好,多个变量不显著,这极有可能是多重共线性导致的。因为往往985院校院士数、硕博点数等都要更多,所以通过控制这些变量来比较不同等级院校录取线差异,也是难以实现的。

表 1 VIF检验

变量

keyddpmp$acdmincian$X985X211

VIF值

1.496

4.957

3.561

2.215

2.260

1.841

        对该模型进行VIF检验(表1),所以变量的VIF值均大于1,且dp达到将近5的数值,表明该回归确实存在高度相关性。因此,我们剔除掉dpmp$acdmincian$三个变量,重新进行回归。得到结果如下:

        三个变量经t检验在统计上均显著,符号方向均为正,与实际相符合的。对系数进行解读,\beta_{X211} \approx 75.5意味着211院校要比非211院校平均录取分数线高75.5(当然这只是2015年的数据,对于2016年及以后,还需要考虑时间带来的影响等)。而对于\beta_{X985} \approx 28的解读,我们需要注意,985院校一定是211院校,故该系数意味着985院校平均录取线比211院校高28分,如要比较985院校与非211院校,还应加上X211的影响,即985院校会比非211院校平均录取线高103.5分。

notes: binary变量,其实关于这一部分好像采取更多的应该是one-hot coding?但这样写也是可以的叭,当时学计量记忆中是这样滴,因为比较简单好理解~

3、不同地区院校15年平均录取线的比较

        自2017年“双一流”建设开展以来,许多非211院校不断在新的建设周期内奋力争先,也出现了部分双非学校由于其地理优势与极强的某些学科实力,录取分数线反超211院校的情况。因此,对于2015年未推行“双一流”政策,地区对非211院校录取分数有无影响,也很值得研究。基于本文第二部分对数据的基本描述,我们基于北京,引入新的哑变量,得到回归方程如下:

        分析可知,重点学科数与其他变量相比对录取分数线的影响很小,但其t检验显著,故仍保留。增加交乘项后,\beta_{cou}减小了10左右,\beta_{no211}减小了3左右,\beta_{cou*no211}为正数,意味着地区对于非211院校、其余院校与非211院校的差距都有着不可忽视的影响。

非211院校:

故在非211院校中,位于北京的院校会比其他地区的院校录取线高。

(四)总结

本文应用多元回归分析,构建计量模型,借助R语言强大的功能,对2015年各院校平均录取分数线进行解读,阐释院士数量、硕博点、重点学科建设、地区等对于院校录取分数线的影响。随着经济和社会的动态发展,地区优势越来越成为双非学校选择优秀学生的助力,这与当地的就业环境等有着很大的关系。对于处于非优势地区的院校,不断争取重点学科建设,引进院士人才,努力申报硕博点,是提高录取平均线的有效途径。

参考文献:

  1. 郁悦.高考择校中的地区效应研究[J].亚太教育,2016,No.51(12):261+258.
  1. 丁瑜. 基于录取分数线的本科专业声誉实证研究[D].江西财经大学,2017.
  2. 李靖波.基于高考录取分数线的高校转型发展状态指数及其实证分析[J].宜春学院学报,2019,41(07):110-113+120.
  3. 朱民.高校要成为科技创新人才培养和聚集的主战场[J].上海教育,2015,No.945(16):65.

notes: 大二下学期的作业,每次机房的课我都上得不是很好(ganjio有催眠效果hh)所以非常菜菜的一篇课程论文想分享给水平也比较菜、有完成课程论文需求的同学,可以作一个小参考,难度很低嘛,但是作为课程论文还是比较完整yeah!

附录

1、分地区统计图

infor = read.csv("f1.csv", fileEncoding = 'GBK')
library(DescTools)
mat<-as.matrix(infor[,2:8]);rownames(mat)=infor[,1]
par(mai=c(0.6,0.6,0.1,0.1))
PlotLinesA(t(mat),xlab="省份",ylab="数量",args.legend=NA,
col=rainbow(32),pch=21,pch.col=1,pch.bg="white",pch.cex=1)
legend(x="topright",legend=infor[,1],lty=1,
       col=rainbow(32),box.col="grey85",inset=0.01,ncol=1,cex=0.6)

2、2015年平均录取分数线的总体估计

original<-read.csv("C:/Users/Oranste/Documents/Lessons/Tech/Oranste's R Language/essay/data.csv")
total<-na.omit(original)
model1<-lm(y~x1+x2+x3+x4,data=total)
summary(model1)

##
## Call:
## lm(formula = y ~ x1 + x2 + x3 + x4, data = total)
##
## Residuals:
##      Min       1Q   Median       3Q      Max
## -116.989  -29.616   -9.641   20.938  154.582
##
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 511.61563    2.77078 184.647  < 2e-16 ***
## x1            0.59342    0.27148   2.186  0.02937 *  
## x2            0.37762    0.09563   3.949 9.19e-05 ***
## x3            0.10131    0.05151   1.967  0.04985 *  
## x4            1.16015    0.35919   3.230  0.00133 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 42.33 on 428 degrees of freedom
## Multiple R-squared:  0.383,  Adjusted R-squared:  0.3773
## F-statistic: 66.43 on 4 and 428 DF,  p-value: < 2.2e-16

confint(model1,level=0.95)

##                    2.5 %      97.5 %
## (Intercept) 5.061696e+02 517.0616518
## x1          5.981416e-02   1.1270300
## x2          1.896510e-01   0.5655958
## x3          6.557064e-05   0.2025598
## x4          4.541630e-01   1.8661438

anova(model1)

## Analysis of Variance Table
##
## Response: y
##            Df Sum Sq Mean Sq  F value    Pr(>F)    
## x1          1 206830  206830 115.4166 < 2.2e-16 ***
## x2          1 244979  244979 136.7050 < 2.2e-16 ***
## x3          1   5659    5659   3.1577  0.076280 .  
## x4          1  18695   18695  10.4325  0.001334 **
## Residuals 428 766987    1792                       
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

3、不同院校2015年平均录取分数线的比较

model2<-lm(y~x1+x2+x3+x4+x5+x6,data=total)
summary(model2)

##
## Call:
## lm(formula = y ~ x1 + x2 + x3 + x4 + x5 + x6, data = total)
##
## Residuals:
##      Min       1Q   Median       3Q      Max
## -112.838  -23.774   -3.877   12.222  142.523
##
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 507.99219    2.35198 215.985   <2e-16 ***
## x1            0.46138    0.22885   2.016   0.0444 *  
## x2            0.07560    0.08668   0.872   0.3836    
## x3            0.04168    0.04399   0.947   0.3440    
## x4            0.32016    0.32143   0.996   0.3198    
## x5           17.00376    8.96670   1.896   0.0586 .  
## x6           68.99029    5.45977  12.636   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 35.53 on 426 degrees of freedom
## Multiple R-squared:  0.5674, Adjusted R-squared:  0.5614
## F-statistic: 93.14 on 6 and 426 DF,  p-value: < 2.2e-16

library(car)

## 载入需要的程辑包:carData

vif(model2)

##       x1       x2       x3       x4       x5       x6
## 1.496038 4.957053 3.560861 2.215368 2.260390 1.841339

model3<-lm(y~x1+x5+x6,data=total)
summary(model3)

##
## Call:
## lm(formula = y ~ x1 + x5 + x6, data = total)
##
## Residuals:
##     Min      1Q  Median      3Q     Max
## -115.40  -24.69   -4.37   14.27  141.31
##
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 509.6917     2.1043 242.216  < 2e-16 ***
## x1            0.6780     0.2141   3.167 0.001652 **
## x5           27.4924     7.6695   3.585 0.000376 ***
## x6           75.4684     4.9806  15.152  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 35.74 on 429 degrees of freedom
## Multiple R-squared:  0.5592, Adjusted R-squared:  0.5561
## F-statistic: 181.4 on 3 and 429 DF,  p-value: < 2.2e-16

4、不同地区院校15年平均录取线的比较

model4<-lm(y~x1+x7+x8,data=total)
summary(model4)

##
## Call:
## lm(formula = y ~ x1 + x7 + x8, data = total)
##
## Residuals:
##      Min       1Q   Median       3Q      Max
## -113.550  -24.025   -2.393   15.311  110.106
##
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 585.1046     4.2609 137.320  < 2e-16 ***
## x1            0.8515     0.1963   4.339 1.79e-05 ***
## x7           34.8686     5.1247   6.804 3.43e-11 ***
## x8          -79.0791     4.2771 -18.489  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 34.46 on 429 degrees of freedom
## Multiple R-squared:  0.5902, Adjusted R-squared:  0.5873
## F-statistic:   206 on 3 and 429 DF,  p-value: < 2.2e-16

model4<-lm(y~x1+x7+x7*x8,data=total)
summary(model4)

##
## Call:
## lm(formula = y ~ x1 + x7 + x7 * x8, data = total)
##
## Residuals:
##      Min       1Q   Median       3Q      Max
## -111.675  -23.734   -1.782   15.855  109.900
##
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 587.6890     4.4265 132.765  < 2e-16 ***
## x1            0.8939     0.1966   4.547  7.1e-06 ***
## x7           22.3111     7.9530   2.805  0.00525 **
## x8          -82.5891     4.5893 -17.996  < 2e-16 ***
## x7:x8        21.4189    10.4009   2.059  0.04007 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 34.33 on 428 degrees of freedom
## Multiple R-squared:  0.5942, Adjusted R-squared:  0.5904
## F-statistic: 156.7 on 4 and 428 DF,  p-value: < 2.2e-16

清华大学出品的R语言全套课程PPT学习课件,非常适合大学生和职场人士学习,也适合老鸟复习回顾,完全可用于自学入门,很经典好用的PPT课件哦~ (1)清华大学精品数据科学R语言全套课程PPT课件含习题(26页) 第1章 R语言绪论(1) (2)清华大学精品数据科学R语言全套课程PPT课件含习题(27页) 第2章 R语言入门 (3)清华大学精品数据科学R语言全套课程PPT课件含习题(53页) 第3章 数据模型 (4)清华大学精品数据科学R语言全套课程PPT课件含习题(15页) 第4章 数据准备 (5)清华大学精品数据科学R语言全套课程PPT课件含习题(66页) 第5章 数据可视化 (6)清华大学精品数据科学R语言全套课程PPT课件含习题(35页) 第6章 数据探索 (7)清华大学精品数据科学R语言全套课程PPT课件含习题(38页) 第7章 数据变换 (8)清华大学精品数据科学R语言全套课程PPT课件含习题(20页) 第8章 高级编程 (9)清华大学精品数据科学R语言全套课程PPT课件含习题(63页) 第9章 数据建模 (10)清华大学精品数据科学R语言全套课程PPT课件含习题(25页) 第10章 数据评估 (11)清华大学精品数据科学R语言全套课程PPT课件含习题(21页) 第11章 影响大学平均录取分数线因素分析 (12)清华大学精品数据科学R语言全套课程PPT课件含习题(18页) 第12章 收视率分析 (13)清华大学精品数据科学R语言全套课程PPT课件含习题(18页) 第13章 RHadoop (14)清华大学精品数据科学R语言全套课程PPT课件含习题(25页) 第14章 Rspark
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值