序言:
一篇非常简单的基于R实现的课程论文,适合刚学R的小白同学看
正文:
(一)研究问题的角度叙述
每一个夏天,伴随高考落幕,各大院校高考录取分数线的相关话题热度不断,志愿填报等衍生话题也不断引发舆论,呈现高度火热的全民关注状态。目前,国内对于高考录取分数线这一话题的研究主要围绕高考分数预测、考生能力素养与教育投资回报、地区均衡问题、唯分数论解决对策、分数线与院校等展开。录取分数线,既决定着考生是否能前往理想院校,也在一定程度反映院校的师资力量、教育投入等。
郁悦[1]运用探索性数据分析的方法,讨论了高校所在地区对于高考择校的影响。丁瑜[2]采用教育统计学的相关方法,基于录取分数线对本科专业声誉进行了实证研究。李靖波[3]通过建立指标体系,衡量了录取分数线对于高校转型发展的影响。可见,在分数线与院校方面,更多地是研究录取分数线对院校产生的效用,而关于院校如何影响其录取分数线的研究还较少。
基于此,本文关注各院校15年的平均录取分数线,拟运用R语言课程方法,将地区、院士、硕士点、重点学科、博士点、是否为985等信息作为自变量,拟合回归模型,解释他们对于院校分数线的影响。
notes: “而关于院校如何影响其录取分数线的研究还较少”这句话纯属当时写课程论文,对参考的论文的框架模仿哈哈!and 如果写论文的话,引用要用上角标,word里选中[i]右击编辑其字体,就可以调整了。
(二)数据基本描述
在进行回归分析之前,需对现有的数据样本进行预处理和一定的基本描述。
首先,在Excel中对“大学院校信息”文件作简单数据预处理,基于“所在地”和“地址”两列数据,按省份划分得到“地区”数据。接着,以“地区”为类别,分类统计了15年各地区院校总计的院士位数、硕士点数、重点学科数、博士点数、985院校数、211院校数、非211院校数,并以、
、
、
、
、
、
符号来代表。将数据导入RStudio中,作各地区轮廓图(见图1):
图 1 各地区轮廓图
从图1我们可以很直观地得知,2015年北京地区院校变量各值明显偏高(注: 变量状态被图例遮挡,但由于其与
等数值相差较大,故不影响此处分析)。这既与北京作为我国首都、教育资源相对更加丰富的事实有关,也与“大学院校信息”样本数据搜集并非全面相关。但不可否认的是,北京地区所具有院校信息是最丰富的,后续对地区影响进行分析时,我们将基于北京构造具有哑变量的模型。
notes: 当时因为作图能力的问题,编造了”数值相差较大不影响此处分析“的鬼话。
(三)模型估计、求解与分析
对1169条数据进行缺省值处理,433条可用于研究,样本量大于300,满足条件。
notes: 满足的是课程论文的数据要求哈哈
1、2015年平均录取分数线的总体估计
将、
、
、
作为解释变量,根据输出结果,得到估计的多元线性回归方程为:
五个变量经t检验在统计上也都是显著的,符号方向都为正,这与实际是相符合的。一个院校,其院士数、博士点、硕士点、重点学科数量越多,说明该校的教育资源就越丰富,相关的资金投入也就越多,往往学校也是约好的,学生自然就愿意选择这样的学校,需求增大,高考录取分数线自然也就越高。
notes: 当时刚好在学计量经济学,所以模仿计量的写法,实际上可以不用写小括号里的
notes:在茆书里对于多元提了一嘴,在模型检验上经推广F检验仍适用,但t检验×;周纪芗老师《实用回归分析方法》里有用到偏回归平方和(F统计量也和一元的结构是一样的);所以我其实也有疑惑,因为软件常常直接都输出t统计量值,有没有懂的小伙伴评论区留言一下!
并且值得注意的是,对于录取分数线的影响最大,其意味着每增加一位院士,该院校的高考录取分数线将提高1.16015分,这是一个不小的影响。这一结论与朱民[4]关于高校要成为科技创新人才培养和聚集的主战场相同,一流的科技创新人才为学生们带来一流的教育,切实让高校人才培养的成果转化为创新发展的驱动力。
2、不同院校2015年平均录取分数线的比较
引入哑变量,控制重点学科数、博士点数等变量,比较985院校、211院校、非211院校2015年平均录取分数线,回归方程如下:
可见第二个估计并不好,多个变量不显著,这极有可能是多重共线性导致的。因为往往985院校院士数、硕博点数等都要更多,所以通过控制这些变量来比较不同等级院校录取线差异,也是难以实现的。
表 1 VIF检验
变量 | ||||||
VIF值 | 1.496 | 4.957 | 3.561 | 2.215 | 2.260 | 1.841 |
对该模型进行VIF检验(表1),所以变量的VIF值均大于1,且达到将近5的数值,表明该回归确实存在高度相关性。因此,我们剔除掉
、
、
三个变量,重新进行回归。得到结果如下:
三个变量经t检验在统计上均显著,符号方向均为正,与实际相符合的。对系数进行解读,意味着211院校要比非211院校平均录取分数线高75.5(当然这只是2015年的数据,对于2016年及以后,还需要考虑时间带来的影响等)。而对于
的解读,我们需要注意,985院校一定是211院校,故该系数意味着985院校平均录取线比211院校高28分,如要比较985院校与非211院校,还应加上
的影响,即985院校会比非211院校平均录取线高103.5分。
notes: binary变量,其实关于这一部分好像采取更多的应该是one-hot coding?但这样写也是可以的叭,当时学计量记忆中是这样滴,因为比较简单好理解~
3、不同地区院校15年平均录取线的比较
自2017年“双一流”建设开展以来,许多非211院校不断在新的建设周期内奋力争先,也出现了部分双非学校由于其地理优势与极强的某些学科实力,录取分数线反超211院校的情况。因此,对于2015年未推行“双一流”政策,地区对非211院校录取分数有无影响,也很值得研究。基于本文第二部分对数据的基本描述,我们基于北京,引入新的哑变量,得到回归方程如下:
分析可知,重点学科数与其他变量相比对录取分数线的影响很小,但其t检验显著,故仍保留。增加交乘项后,减小了10左右,
减小了3左右,
为正数,意味着地区对于非211院校、其余院校与非211院校的差距都有着不可忽视的影响。
非211院校:
故在非211院校中,位于北京的院校会比其他地区的院校录取线高。
(四)总结
本文应用多元回归分析,构建计量模型,借助R语言强大的功能,对2015年各院校平均录取分数线进行解读,阐释院士数量、硕博点、重点学科建设、地区等对于院校录取分数线的影响。随着经济和社会的动态发展,地区优势越来越成为双非学校选择优秀学生的助力,这与当地的就业环境等有着很大的关系。对于处于非优势地区的院校,不断争取重点学科建设,引进院士人才,努力申报硕博点,是提高录取平均线的有效途径。
参考文献:
- 丁瑜. 基于录取分数线的本科专业声誉实证研究[D].江西财经大学,2017.
- 李靖波.基于高考录取分数线的高校转型发展状态指数及其实证分析[J].宜春学院学报,2019,41(07):110-113+120.
- 朱民.高校要成为科技创新人才培养和聚集的主战场[J].上海教育,2015,No.945(16):65.
notes: 大二下学期的作业,每次机房的课我都上得不是很好(ganjio有催眠效果hh)所以非常菜菜的一篇课程论文想分享给水平也比较菜、有完成课程论文需求的同学,可以作一个小参考,难度很低嘛,但是作为课程论文还是比较完整yeah!
附录
1、分地区统计图
infor = read.csv("f1.csv", fileEncoding = 'GBK')
library(DescTools)
mat<-as.matrix(infor[,2:8]);rownames(mat)=infor[,1]
par(mai=c(0.6,0.6,0.1,0.1))
PlotLinesA(t(mat),xlab="省份",ylab="数量",args.legend=NA,
col=rainbow(32),pch=21,pch.col=1,pch.bg="white",pch.cex=1)
legend(x="topright",legend=infor[,1],lty=1,
col=rainbow(32),box.col="grey85",inset=0.01,ncol=1,cex=0.6)
2、2015年平均录取分数线的总体估计
original<-read.csv("C:/Users/Oranste/Documents/Lessons/Tech/Oranste's R Language/essay/data.csv")
total<-na.omit(original)
model1<-lm(y~x1+x2+x3+x4,data=total)
summary(model1)
##
## Call:
## lm(formula = y ~ x1 + x2 + x3 + x4, data = total)
##
## Residuals:
## Min 1Q Median 3Q Max
## -116.989 -29.616 -9.641 20.938 154.582
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 511.61563 2.77078 184.647 < 2e-16 ***
## x1 0.59342 0.27148 2.186 0.02937 *
## x2 0.37762 0.09563 3.949 9.19e-05 ***
## x3 0.10131 0.05151 1.967 0.04985 *
## x4 1.16015 0.35919 3.230 0.00133 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 42.33 on 428 degrees of freedom
## Multiple R-squared: 0.383, Adjusted R-squared: 0.3773
## F-statistic: 66.43 on 4 and 428 DF, p-value: < 2.2e-16
confint(model1,level=0.95)
## 2.5 % 97.5 %
## (Intercept) 5.061696e+02 517.0616518
## x1 5.981416e-02 1.1270300
## x2 1.896510e-01 0.5655958
## x3 6.557064e-05 0.2025598
## x4 4.541630e-01 1.8661438
anova(model1)
## Analysis of Variance Table
##
## Response: y
## Df Sum Sq Mean Sq F value Pr(>F)
## x1 1 206830 206830 115.4166 < 2.2e-16 ***
## x2 1 244979 244979 136.7050 < 2.2e-16 ***
## x3 1 5659 5659 3.1577 0.076280 .
## x4 1 18695 18695 10.4325 0.001334 **
## Residuals 428 766987 1792
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
3、不同院校2015年平均录取分数线的比较
model2<-lm(y~x1+x2+x3+x4+x5+x6,data=total)
summary(model2)
##
## Call:
## lm(formula = y ~ x1 + x2 + x3 + x4 + x5 + x6, data = total)
##
## Residuals:
## Min 1Q Median 3Q Max
## -112.838 -23.774 -3.877 12.222 142.523
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 507.99219 2.35198 215.985 <2e-16 ***
## x1 0.46138 0.22885 2.016 0.0444 *
## x2 0.07560 0.08668 0.872 0.3836
## x3 0.04168 0.04399 0.947 0.3440
## x4 0.32016 0.32143 0.996 0.3198
## x5 17.00376 8.96670 1.896 0.0586 .
## x6 68.99029 5.45977 12.636 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 35.53 on 426 degrees of freedom
## Multiple R-squared: 0.5674, Adjusted R-squared: 0.5614
## F-statistic: 93.14 on 6 and 426 DF, p-value: < 2.2e-16
library(car)
## 载入需要的程辑包:carData
vif(model2)
## x1 x2 x3 x4 x5 x6
## 1.496038 4.957053 3.560861 2.215368 2.260390 1.841339
model3<-lm(y~x1+x5+x6,data=total)
summary(model3)
##
## Call:
## lm(formula = y ~ x1 + x5 + x6, data = total)
##
## Residuals:
## Min 1Q Median 3Q Max
## -115.40 -24.69 -4.37 14.27 141.31
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 509.6917 2.1043 242.216 < 2e-16 ***
## x1 0.6780 0.2141 3.167 0.001652 **
## x5 27.4924 7.6695 3.585 0.000376 ***
## x6 75.4684 4.9806 15.152 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 35.74 on 429 degrees of freedom
## Multiple R-squared: 0.5592, Adjusted R-squared: 0.5561
## F-statistic: 181.4 on 3 and 429 DF, p-value: < 2.2e-16
4、不同地区院校15年平均录取线的比较
model4<-lm(y~x1+x7+x8,data=total)
summary(model4)
##
## Call:
## lm(formula = y ~ x1 + x7 + x8, data = total)
##
## Residuals:
## Min 1Q Median 3Q Max
## -113.550 -24.025 -2.393 15.311 110.106
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 585.1046 4.2609 137.320 < 2e-16 ***
## x1 0.8515 0.1963 4.339 1.79e-05 ***
## x7 34.8686 5.1247 6.804 3.43e-11 ***
## x8 -79.0791 4.2771 -18.489 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 34.46 on 429 degrees of freedom
## Multiple R-squared: 0.5902, Adjusted R-squared: 0.5873
## F-statistic: 206 on 3 and 429 DF, p-value: < 2.2e-16
model4<-lm(y~x1+x7+x7*x8,data=total)
summary(model4)
##
## Call:
## lm(formula = y ~ x1 + x7 + x7 * x8, data = total)
##
## Residuals:
## Min 1Q Median 3Q Max
## -111.675 -23.734 -1.782 15.855 109.900
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 587.6890 4.4265 132.765 < 2e-16 ***
## x1 0.8939 0.1966 4.547 7.1e-06 ***
## x7 22.3111 7.9530 2.805 0.00525 **
## x8 -82.5891 4.5893 -17.996 < 2e-16 ***
## x7:x8 21.4189 10.4009 2.059 0.04007 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 34.33 on 428 degrees of freedom
## Multiple R-squared: 0.5942, Adjusted R-squared: 0.5904
## F-statistic: 156.7 on 4 and 428 DF, p-value: < 2.2e-16