2021年全国大学生数据统计与分析竞赛A题硕士学位论文评价数据的统计与分析解题全过程文档及程序

数模竞赛Paid answer

已于 2023-05-30 11:01:00 修改

阅读量425

点赞数 2

分类专栏：笔记数学建模全国大学生数据统计与分析竞赛文章标签：人工智能 matlab 数学建模

于 2023-05-30 10:42:51 首次发布

本文链接：https://blog.csdn.net/weixin_43292788/article/details/130942326

版权

数学建模同时被 3 个专栏收录

438 篇文章 122 订阅

订阅专栏

笔记

328 篇文章 32 订阅

订阅专栏

全国大学生数据统计与分析竞赛

2 篇文章 0 订阅

订阅专栏

2021年全国大学生数据统计与分析竞赛

A题硕士学位论文评价数据的统计与分析

原题再现：

从翟天临学位论文涉嫌学术不端被查，到教育部和科技部推出的“破四唯”，让学位论文质量成为了研究生学位授予质量的重要评价参考。从培养单位的角度看，学位论文质量的高低是衡量研究生学术水平的重要手段。从研究生个人层面看，学位论文的写作是一项“神圣”的使命。学位的获得应该既代表了科学知识的掌握，也代表了科学精神的具备。在这一意义上，研究生学位论文的写作过程不仅是提高研究、创新能力的过程，而且是一个铸造人格的过程。
根据《国务院学位委员会、教育部关于印发<博士、硕士学位论文抽检办法>的通知》（学位〔2014〕5 号）要求，中国北方某省教育厅 2019 年和 2020 年完成了全省每年 1.5 万余篇硕士学位论文的例行抽检工作，得到了大量的评审数据。该省教育厅采用了平均分和最低得分的方式对论文质量进行评价，提取 3 位评阅专家给出的总分最低分进行学科门类内排名，用“末位后 5%淘汰制”定出问题论文，用 3 位评阅专家给出的总分平均分反应论文的整体水平。为了更好的对学位论文进行科学评价，请参赛者根据部分抽检论文的评审信息（见附件 1），运用数据统计与分析方法，解决如下 5 个问题，并将问题解决的过程按照全国大学生数据统计与分析竞赛的要求撰写成论文，填写附件 2，一并提交。
问题 1：请参赛者基于上述“末位后 5%淘汰制”，筛选出问题论文。填写附件 2。
问题 2：计算每篇论文的各分项平均分和总分平均分。填写附件2。按照学科门类，分别统计分析 3 位评阅专家给出的 3 个总分以及1 个总分平均分之间的一致性和差异性，并分析对比各学科门类学位论文的水平。
问题 3：按照学科门类统计分析论文评阅评语，采用文本分析方法，建立评阅专家观点评价模型，并论证文本分析结果与其各分项得分间是否存在一致性。
问题 4：应用问题 2 和问题 3 得到的结论对附件 1 中的每篇论文进行综合评价，给出综合得分。填写附件 2。
问题 5：以学科门类工学（08）为例，对比问题论文（被淘汰的论文）与优秀论文（综合得分排名前 10%）的典型特征。

附录：
附件 1 提供了 1246 篇硕士学位论文的评审信息，涵盖 11 个学科门类。表中的 Tag 指的是学科门类编码（见后面释义），表中 bm 指的是论文编号，每个编号对应 1 篇硕士学位论文，每篇论文都有 3 位评阅专家评价信息。评阅专家从选题与综述、创新性及论文价值、科研能力与基础知识、论文规范性，4 个维度对论文进行评价打分。表中的 Xk1 指的是第 k 位评审专家对论文选题与综述的评分；Xk2 指的是第 k 位评审专家对创新性及论文价值的评分；Xk3 指的是第 k 位评审专家对科研能力与基础知识的评分；Xk4 指的是第 k 位评审专家对论文规范性的评分；Xk 指的是第 k 位评审专家对论文的总体评价得分；Rk 指的是第 k 位评审专家对论文的评语，k=1, 2, 3。
在这里插入图片描述

整体求解过程概述(摘要)

本文针对硕士学位论文的优劣评价问题，基于数据勘误修正、变异系数及正态性检验等分析方法进行各学科论文得分数据间的纵横向对比分析；使用文本净化、语义同化以及程度量化等数据处理方法构建了二层模糊综合评价模型；并以工科（08）为例进行特征识别，给出优秀论文及问题论文的有关特征。
针对问题一，首先对全体论文得分数据进行异常剔除、缺失修补、误存改正等数据净化处理以获取净数据；其次，定义p 算子进行论文最低给分值归类并进行排列处理；然后，按末位后 5%淘汰率计算并向上取整以生成参考数量，对淘汰率作严格化以确定各学科问题论文数量；最后亦使用p 算子查找问题论文编号并填写于附件 2 相应列。
针对问题二，首先进行各评价指标得分均值、总分均值的求取，并对应填写于附件2 相应列；其次在基于独立性假设下对各学科论文进行变异系数求取，认为 3 位评阅专家所给总分与总分均值间具有一致性，但彼此间差异性较大；然后使用 Jaeque-Beran 方法检验各学科得分分布的正态性，亦在放松条件下认为均服从正态分布；最后选用下分位数以及均值进行学科论文整体水平的对比分析，得出法学、理学两学科论文水平整体较优，艺术学论文质量整体较差等分析结论。
针对问题三，首先，同样对评阅评语信息进行净化处理：认为无意义评语、缺失评语文本均为无效评语，便建立有评语评价指标；其次，基于词频统计筛选生成 13 个二层影响因素，亦按相近性再划分为第一层影响因素；然后，认为在样本量较大的情况下，影响因素权重即为频数比以进行权重确比，并对同等严厉程度修饰词进行合并量化；最后建立有二层模糊综合评价模型，并使用工科论文进行残差检验，认为在各残差水平下评语评价指标与各评价指标间具有良好的一致性。
针对问题四，首先利用模型三，对全体论文的评阅评语进行模糊评价，逐篇生成评阅指标；其次注意到评阅指标与总分均分间的互验性，便与总分均值取等权重以生成综合得分；最后汇总综合得分情况填写于附件 2 相应列。
针对问题五，首先认为优秀论文与问题论文的总体特征为综合评价分数，便考虑分析每篇论文的特征向量以识别目标论文的特征；其次对目标论文的第一层影响因素计算确定系数以确定目标特征；然后，认为问题论文的典型特征为论文规范性亟待提升，第二特征为科研能力与基础知识较为薄弱；优秀论文典型特征为科研能力与基础知识在论文中有突出体现，第二特征为创新性与论文价值有较好展现；最后对特征结论进行考察分析，认为特征鲜明，对目标论文可以有效识别。
本文的特点是，对于常规化的描述分析作可视化处理以提高数据的直观程度；对评阅文本进行基于蒙特卡洛方法下的指标遴选以及权重确比，建立有评语评价模型并进行结果互验以确保模型的正确性。

模型假设：

1. 各论文给分情况独立，不受其他论文给分影响；
2. 各评阅专家给分情况独立，不受其他评阅专家影响；
3. 各评阅专家严厉程度相同，论文得分客观公正；
4. 评阅打分表设计科学合理；
5. 论文抽取具有随机性；
6. 认为各学科论文样本数量足够大。

问题分析：

问题一的分析
针对问题一，首先进行数据预处理，针对异常数据、缺失数据以及误存数据进行勘误修正；其次，利用p 算子对学科论文进行归类，再根据“末位后 5%淘汰制”向上取整以筛选每类学科下的问题论文，其中考虑题目背景与意义，放宽边界，将处于下分位点的相同分数论文均纳入问题论文，以保证问题论文均在考察范围；最后，统计汇总问题论文数量，填写于附件 2。
问题二的分析
针对问题二，首先计算出每篇论文的各项均分和总分均分，填于附件 2；其次，利用变异系数逐层刻画每类学科每篇论文得分的离散程度以及每类学科下评阅专家的评分离散程度，同时绘制每类学科的均分散点图，进行可视化分析；在验证各学科论文服从正态分布的情况下，选取下分位数与均值并将其可视化，以横向刻画各学科论文质量。
问题三的分析
针对问题三，首先，考察评阅打分样表以及评价要求，删除论文评语缺失项、评语不足项以及概貌评阅项，并筛选出评语指标，经过量化及有效化后，确立缺点量化值为评语指标值，建立越小越优型评语指标模型；其次，采取二层模糊综合评价，利用调查统计法表征各因素权重，建立评阅专家观点评价模型；然后对无论文评语项及第二层影响因素不全项，做出相应的缺省处理，并以第 333 篇论文进行示例分析；最后，通过残差计算，考察文本分析结果与其各分项得分间的一致性。
问题四的分析
针对问题四，在模型二三的基础上，考虑总分平均分以及评语评价指标间的互验性，便取等权重建立综合评价模型，最后将论文综合得分填写于附件 2。
问题五的分析
针对问题五，首先依据综合得分甄选出优秀论文，然后利用模糊评价对目标论文使用特征向量进行特征对比分析；其次，分别对问题论文与优秀论文进行回归分析，利用决定系数 2 R 刻画目标论文的典型特征。

模型的建立与求解整体论文缩略图

在这里插入图片描述

全部论文请见下方“ 只会建模 QQ名片” 点击QQ名片即可

程序代码：(代码和文档not free)

function createfigure(data1)
%CREATEFIGURE(data1)
% DATA1: histogram data
% 创建 figure
figure1 = figure;
% 创建 axes
axes1 = axes('Parent',figure1);
hold(axes1,'on');
% 创建 histogram
histogram(data1,'DisplayName','04AVE','Parent',axes1,'BinMethod','auto');
% 创建 ylabel
ylabel('04number');
% 创建 xlabel
xlabel('04Score');
box(axes1,'on');
% 创建 legend
legend(axes1,'show');
function createfigure(data1)
%CREATEFIGURE(data1)
% DATA1: histogram data
% 创建 figure
figure1 = figure;
% 创建 axes
axes1 = axes('Parent',figure1);
hold(axes1,'on');
% 创建 histogram
histogram(data1,'DisplayName','07AVE','Parent',axes1,'BinMethod','auto');
% 创建 ylabel
ylabel('07number');
% 创建 xlabel
xlabel('07Score');
box(axes1,'on');
% 创建 legend
legend(axes1,'show');
function createfigure(data1)
%CREATEFIGURE(data1)
% DATA1: histogram data
% 创建 figure
figure1 = figure;
% 创建 axes
axes1 = axes('Parent',figure1);
hold(axes1,'on');
% 创建 histogram
histogram(data1,'DisplayName','08AVE','Parent',axes1,'BinMethod','auto');
% 创建 ylabel
ylabel('08number');
% 创建 xlabel
xlabel('08Score');
box(axes1,'on');
% 创建 legend
legend(axes1,'show');
figure;
score_mean = mean(score)
s1 = std(score)
s1 = std(score,0)
s2 = std(score,1)
score_max = max(score)
score_min = min(score)
score_range = range(score)
score_median = median(score)
score_mode = mode(score)
score_cvar = std(score)/mean(score)
score_skewness = skewness(score)
score_kurtosis = kurtosis(score)
[h,stats] = cdfplot(score);
set(h,'color','r', 'LineStyle', ':','LineWidth',2);
hold on
title ('');
xlabel('成绩');
ylabel('F(x)');
[f_ks, xi] = ksdensity(score,'function','cdf');
plot(xi,f_ks,'k','linewidth',2);
y = normcdf(xi,stats.mean,stats.std);
plot(xi,y,'b-.','LineWidth',2);
legend('正态分布','Location','NorthWest');
f_ecdf, xc] = ecdf(score);
figure;
[h,p,stats] = chi2gof(score)
ctrs = [50 60 70 78 85 94];
[h,p,stats] = chi2gof(score,'ctrs',ctrs)
[h,p,stats] = chi2gof(score,'nbins',6)
[h,p,stats] = chi2gof(score,'nbins',6);
ms = mean(score);
ss = std(score);
[h,p,stats] = chi2gof(score,'nbins',6,'cdf',{'normcdf', ms, ss});
[h,p,stats] = chi2gof(score,'nbins',6,'cdf',{@normcdf, ms, ss});
[h,p,stats] = chi2gof(score,'nbins',6,'cdf',{@normcdf,ms,ss},'nparams',2)
[h,p] = chi2gof(score,'cdf',@normcdf)
[h,p] = chi2gof(score,'nbins',6,'cdf',{@poisscdf, ms})
h = chi2gof(score,'nbins',6,'cdf',{@normcdf, ms, ss},'emin',3)
ecdfhist(f_ecdf, xc, 7);
hold on;
xlabel('考试成绩');
ylabel('f(x)');
[f_ks1,xi1,u1] = ksdensity(score);
plot(xi1,f_ks1,'k','linewidth',3)
ms = mean(score);
ss = std(score);
f_norm = normpdf(xi1,ms,ss);
plot(xi1,f_norm,'r-.','linewidth',3)
legend('正态分布密度图', 'Location','NorthWest')
[f_ks1,xi1] = ksdensity(score,'width',0.1);
[f_ks2,xi2] = ksdensity(score,'width',1);
[f_ks3,xi3] = ksdensity(score,'width',5);
[f_ks4,xi4] = ksdensity(score,'width',9);
figure;
plot(xi1,f_ks1,'c-.','linewidth',2);
hold on;
xlabel('成绩');
ylabel('估计');
plot(xi2,f_ks2,'r:','linewidth',2);
plot(xi3,f_ks3,'k','linewidth',2);
plot(xi4,f_ks4,'b--','linewidth',2);
p = size(varname1,1);
varname2 = [];
for i = 1:p-1
varname2 = [varname2;strcat(varname1(i),'*',varname1(i+1:end))];
end
varname3 = strcat(varname1,'*',varname1);
switch model
case 'linear' varnames = varname1;
case 'interaction' varnames = [varname1;varname2];
case 'quadratic' varnames = [varname1;varname2;varname3];
case 'purequadratic' varnames = [varname1;varname3];
end
fmt = '%22s%15.4f%25s%10.4f';
fprintf(fmt,'(Root MSE)',sqrt(ST.mse),'(R-Square)',ST.rsquare);
fprintf('\n');
fprintf(fmt,(Dependent Mean)',mean(y),(Adj R-Sq)',ST.adjrsquare);
fprintf('\n');
fprintf('\n');
alpha = 0.05;
tail = 'both;
'vartype = 'equal' [h,p,muci,stats] = ttest2(x,y,alpha,tail,vartype)
var0 = 1.5
alpha = 0.05
tail = 'both' [h,p,varci,stats] = vartest(x,var0,alpha,tail)
figure;
ecdfhist(f_ecdf, xc, 7);
hold on;
xlabel('成绩');
ylabel('f(x)');
[f_ks1,xi1,u1] = ksdensity(score);
plot(xi1,f_ks1,'k','linewidth',3)
ms = mean(score);
ss = std(score);
f_norm = normpdf(xi1,ms,ss);
plot(xi1,f_norm,'r-.','linewidth',3）