R课程论文分享：对平均分数线的多元回归分析

Oranste�

已于 2024-03-02 16:07:54 修改

阅读量1.7k

点赞数 30

分类专栏：课程论文分享文章标签： r语言

于 2024-03-02 15:16:22 首次发布

本文链接：https://blog.csdn.net/qq_65935777/article/details/136416078

版权

课程论文分享专栏收录该内容

1 篇文章

订阅专栏

序言：

一篇非常简单的基于R实现的课程论文，适合刚学R的小白同学看

正文：

（一）研究问题的角度叙述

每一个夏天，伴随高考落幕，各大院校高考录取分数线的相关话题热度不断，志愿填报等衍生话题也不断引发舆论，呈现高度火热的全民关注状态。目前，国内对于高考录取分数线这一话题的研究主要围绕高考分数预测、考生能力素养与教育投资回报、地区均衡问题、唯分数论解决对策、分数线与院校等展开。录取分数线，既决定着考生是否能前往理想院校，也在一定程度反映院校的师资力量、教育投入等。

郁悦[1]运用探索性数据分析的方法，讨论了高校所在地区对于高考择校的影响。丁瑜[2]采用教育统计学的相关方法，基于录取分数线对本科专业声誉进行了实证研究。李靖波[3]通过建立指标体系，衡量了录取分数线对于高校转型发展的影响。可见，在分数线与院校方面，更多地是研究录取分数线对院校产生的效用，而关于院校如何影响其录取分数线的研究还较少。

基于此，本文关注各院校15年的平均录取分数线，拟运用R语言课程方法，将地区、院士、硕士点、重点学科、博士点、是否为985等信息作为自变量，拟合回归模型，解释他们对于院校分数线的影响。

notes: “而关于院校如何影响其录取分数线的研究还较少”这句话纯属当时写课程论文，对参考的论文的框架模仿哈哈！and 如果写论文的话，引用要用上角标，word里选中[i]右击编辑其字体，就可以调整了。

（二）数据基本描述

在进行回归分析之前，需对现有的数据样本进行预处理和一定的基本描述。

首先，在Excel中对“大学院校信息”文件作简单数据预处理，基于“所在地”和“地址”两列数据，按省份划分得到“地区”数据。接着，以“地区”为类别，分类统计了15年各地区院校总计的院士位数、硕士点数、重点学科数、博士点数、985院校数、211院校数、非211院校数，并以 $acdmincian$ 、 $mp$ 、 $keyd$ 、 $dp$ 、 $X985$ 、 $X211$ 、 $no211$ 符号来代表。将数据导入RStudio中，作各地区轮廓图（见图1）：

图 1 各地区轮廓图

从图1我们可以很直观地得知，2015年北京地区院校变量各值明显偏高（注： $no211$ 变量状态被图例遮挡，但由于其与 $mp$ 等数值相差较大，故不影响此处分析）。这既与北京作为我国首都、教育资源相对更加丰富的事实有关，也与“大学院校信息”样本数据搜集并非全面相关。但不可否认的是，北京地区所具有院校信息是最丰富的，后续对地区影响进行分析时，我们将基于北京构造具有哑变量的模型。

notes: 当时因为作图能力的问题，编造了”数值相差较大不影响此处分析“的鬼话。

（三）模型估计、求解与分析

对1169条数据进行缺省值处理，433条可用于研究，样本量大于300，满足条件。

notes: 满足的是课程论文的数据要求哈哈

1、2015年平均录取分数线的总体估计

将 $keyd$ 、 $dp$ 、 $mp$ 、 $acdmincian$ 作为解释变量，根据输出结果，得到估计的多元线性回归方程为：

五个变量经t检验在统计上也都是显著的，符号方向都为正，这与实际是相符合的。一个院校，其院士数、博士点、硕士点、重点学科数量越多，说明该校的教育资源就越丰富，相关的资金投入也就越多，往往学校也是约好的，学生自然就愿意选择这样的学校，需求增大，高考录取分数线自然也就越高。

notes: 当时刚好在学计量经济学，所以模仿计量的写法，实际上可以不用写小括号里的

notes：在茆书里对于多元提了一嘴，在模型检验上经推广F检验仍适用，但t检验×；周纪芗老师《实用回归分析方法》里有用到偏回归平方和（F统计量也和一元的结构是一样的）；所以我其实也有疑惑，因为软件常常直接都输出t统计量值，有没有懂的小伙伴评论区留言一下！

并且值得注意的是， $acdmincian$ 对于录取分数线的影响最大，其意味着每增加一位院士，该院校的高考录取分数线将提高1.16015分，这是一个不小的影响。这一结论与朱民[4]关于高校要成为科技创新人才培养和聚集的主战场相同，一流的科技创新人才为学生们带来一流的教育，切实让高校人才培养的成果转化为创新发展的驱动力。

2、不同院校2015年平均录取分数线的比较

引入哑变量，控制重点学科数、博士点数等变量，比较985院校、211院校、非211院校2015年平均录取分数线，回归方程如下：

可见第二个估计并不好，多个变量不显著，这极有可能是多重共线性导致的。因为往往985院校院士数、硕博点数等都要更多，所以通过控制这些变量来比较不同等级院校录取线差异，也是难以实现的。

表 1 VIF检验

变量	$keyd$	$dp$	$mp$	$acdmincian$	$X985$	$X211$
VIF值	1.496	4.957	3.561	2.215	2.260	1.841

对该模型进行VIF检验（表1），所以变量的VIF值均大于1，且 $dp$ 达到将近5的数值，表明该回归确实存在高度相关性。因此，我们剔除掉 $dp$ 、 $mp$ 、 $acdmincian$ 三个变量，重新进行回归。得到结果如下：

三个变量经t检验在统计上均显著，符号方向均为正，与实际相符合的。对系数进行解读， $\beta_{X211} \approx 75.5$ 意味着211院校要比非211院校平均录取分数线高75.5（当然这只是2015年的数据，对于2016年及以后，还需要考虑时间带来的影响等）。而对于 $\beta_{X985} \approx 28$ 的解读，我们需要注意，985院校一定是211院校，故该系数意味着985院校平均录取线比211院校高28分，如要比较985院校与非211院校，还应加上 $X211$ 的影响，即985院校会比非211院校平均录取线高103.5分。

notes: binary变量，其实关于这一部分好像采取更多的应该是one-hot coding?但这样写也是可以的叭，当时学计量记忆中是这样滴，因为比较简单好理解~

3、不同地区院校15年平均录取线的比较

自2017年“双一流”建设开展以来，许多非211院校不断在新的建设周期内奋力争先，也出现了部分双非学校由于其地理优势与极强的某些学科实力，录取分数线反超211院校的情况。因此，对于2015年未推行“双一流”政策，地区对非211院校录取分数有无影响，也很值得研究。基于本文第二部分对数据的基本描述，我们基于北京，引入新的哑变量，得到回归方程如下：

分析可知，重点学科数与其他变量相比对录取分数线的影响很小，但其t检验显著，故仍保留。增加交乘项后， $\beta_{cou}$ 减小了10左右， $\beta_{no211}$ 减小了3左右， $\beta_{cou*no211}$ 为正数，意味着地区对于非211院校、其余院校与非211院校的差距都有着不可忽视的影响。

非211院校：

故在非211院校中，位于北京的院校会比其他地区的院校录取线高。

（四）总结

本文应用多元回归分析，构建计量模型，借助R语言强大的功能，对2015年各院校平均录取分数线进行解读，阐释院士数量、硕博点、重点学科建设、地区等对于院校录取分数线的影响。随着经济和社会的动态发展，地区优势越来越成为双非学校选择优秀学生的助力，这与当地的就业环境等有着很大的关系。对于处于非优势地区的院校，不断争取重点学科建设，引进院士人才，努力申报硕博点，是提高录取平均线的有效途径。

参考文献：

郁悦.高考择校中的地区效应研究[J].亚太教育,2016,No.51(12):261+258.

丁瑜. 基于录取分数线的本科专业声誉实证研究[D].江西财经大学,2017.
李靖波.基于高考录取分数线的高校转型发展状态指数及其实证分析[J].宜春学院学报,2019,41(07):110-113+120.
朱民.高校要成为科技创新人才培养和聚集的主战场[J].上海教育,2015,No.945(16):65.

notes: 大二下学期的作业，每次机房的课我都上得不是很好（ganjio有催眠效果hh）所以非常菜菜的一篇课程论文想分享给水平也比较菜、有完成课程论文需求的同学，可以作一个小参考，难度很低嘛，但是作为课程论文还是比较完整yeah！

附录

1、分地区统计图

infor = read.csv("f1.csv", fileEncoding = 'GBK')
library(DescTools)
mat<-as.matrix(infor[,2:8]);rownames(mat)=infor[,1]
par(mai=c(0.6,0.6,0.1,0.1))
PlotLinesA(t(mat),xlab="省份",ylab="数量",args.legend=NA,
col=rainbow(32),pch=21,pch.col=1,pch.bg="white",pch.cex=1)
legend(x="topright",legend=infor[,1],lty=1,
col=rainbow(32),box.col="grey85",inset=0.01,ncol=1,cex=0.6)

2、2015年平均录取分数线的总体估计

original<-read.csv("C:/Users/Oranste/Documents/Lessons/Tech/Oranste's R Language/essay/data.csv")
total<-na.omit(original)
model1<-lm(y~x1+x2+x3+x4,data=total)
summary(model1)

##
## Call:
## lm(formula = y ~ x1 + x2 + x3 + x4, data = total)
##
## Residuals:
##      Min       1Q   Median       3Q      Max
## -116.989 -29.616   -9.641   20.938 154.582
##
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)
## (Intercept) 511.61563    2.77078 184.647 < 2e-16 ***
## x1            0.59342    0.27148   2.186 0.02937 *
## x2            0.37762    0.09563   3.949 9.19e-05 ***
## x3            0.10131    0.05151   1.967 0.04985 *
## x4            1.16015    0.35919   3.230 0.00133 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 42.33 on 428 degrees of freedom
## Multiple R-squared: 0.383, Adjusted R-squared: 0.3773
## F-statistic: 66.43 on 4 and 428 DF, p-value: < 2.2e-16

confint(model1,level=0.95)

##                    2.5 %      97.5 %
## (Intercept) 5.061696e+02 517.0616518
## x1          5.981416e-02   1.1270300
## x2          1.896510e-01   0.5655958
## x3          6.557064e-05   0.2025598
## x4          4.541630e-01   1.8661438

anova(model1)

## Analysis of Variance Table
##
## Response: y
##            Df Sum Sq Mean Sq F value    Pr(>F)
## x1          1 206830 206830 115.4166 < 2.2e-16 ***
## x2          1 244979 244979 136.7050 < 2.2e-16 ***
## x3          1   5659    5659   3.1577 0.076280 .
## x4          1 18695   18695 10.4325 0.001334 **
## Residuals 428 766987    1792
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

3、不同院校2015年平均录取分数线的比较

model2<-lm(y~x1+x2+x3+x4+x5+x6,data=total)
summary(model2)

##
## Call:
## lm(formula = y ~ x1 + x2 + x3 + x4 + x5 + x6, data = total)
##
## Residuals:
##      Min       1Q   Median       3Q      Max
## -112.838 -23.774   -3.877   12.222 142.523
##
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)
## (Intercept) 507.99219    2.35198 215.985   <2e-16 ***
## x1            0.46138    0.22885   2.016   0.0444 *
## x2            0.07560    0.08668   0.872   0.3836
## x3            0.04168    0.04399   0.947   0.3440
## x4            0.32016    0.32143   0.996   0.3198
## x5           17.00376    8.96670   1.896   0.0586 .
## x6           68.99029    5.45977 12.636   <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 35.53 on 426 degrees of freedom
## Multiple R-squared: 0.5674, Adjusted R-squared: 0.5614
## F-statistic: 93.14 on 6 and 426 DF, p-value: < 2.2e-16

library(car)

## 载入需要的程辑包：carData

vif(model2)

## x1 x2 x3 x4 x5 x6
## 1.496038 4.957053 3.560861 2.215368 2.260390 1.841339

model3<-lm(y~x1+x5+x6,data=total)
summary(model3)

##
## Call:
## lm(formula = y ~ x1 + x5 + x6, data = total)
##
## Residuals:
##     Min      1Q Median      3Q     Max
## -115.40 -24.69   -4.37   14.27 141.31
##
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)
## (Intercept) 509.6917     2.1043 242.216 < 2e-16 ***
## x1            0.6780     0.2141   3.167 0.001652 **
## x5           27.4924     7.6695   3.585 0.000376 ***
## x6           75.4684     4.9806 15.152 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 35.74 on 429 degrees of freedom
## Multiple R-squared: 0.5592, Adjusted R-squared: 0.5561
## F-statistic: 181.4 on 3 and 429 DF, p-value: < 2.2e-16

4、不同地区院校15年平均录取线的比较

model4<-lm(y~x1+x7+x8,data=total)
summary(model4)

##
## Call:
## lm(formula = y ~ x1 + x7 + x8, data = total)
##
## Residuals:
##      Min       1Q   Median       3Q      Max
## -113.550 -24.025   -2.393   15.311 110.106
##
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)
## (Intercept) 585.1046     4.2609 137.320 < 2e-16 ***
## x1            0.8515     0.1963   4.339 1.79e-05 ***
## x7           34.8686     5.1247   6.804 3.43e-11 ***
## x8          -79.0791     4.2771 -18.489 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 34.46 on 429 degrees of freedom
## Multiple R-squared: 0.5902, Adjusted R-squared: 0.5873
## F-statistic:   206 on 3 and 429 DF, p-value: < 2.2e-16

model4<-lm(y~x1+x7+x7*x8,data=total)
summary(model4)

##
## Call:
## lm(formula = y ~ x1 + x7 + x7 * x8, data = total)
##
## Residuals:
##      Min       1Q   Median       3Q      Max
## -111.675 -23.734   -1.782   15.855 109.900
##
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)
## (Intercept) 587.6890     4.4265 132.765 < 2e-16 ***
## x1            0.8939     0.1966   4.547 7.1e-06 ***
## x7           22.3111     7.9530   2.805 0.00525 **
## x8          -82.5891     4.5893 -17.996 < 2e-16 ***
## x7:x8        21.4189    10.4009   2.059 0.04007 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 34.33 on 428 degrees of freedom
## Multiple R-squared: 0.5942, Adjusted R-squared: 0.5904
## F-statistic: 156.7 on 4 and 428 DF, p-value: < 2.2e-16