针对大学生学习成绩预测方法研究

最新推荐文章于 2024-05-10 09:53:20 发布

天堑小雨润如酥

最新推荐文章于 2024-05-10 09:53:20 发布

阅读量1.8k

点赞数 1

分类专栏：开源项目调查和研究文章标签：单元测试人工智能数据挖掘 sklearn 分类

本文链接：https://blog.csdn.net/weixin_43100196/article/details/120778224

版权

开源项目调查和研究专栏收录该内容

1 篇文章

订阅专栏

大家点个赞吧！！！

针对中小学学习成绩预测算法研究

一、特征数据集构建

学习成绩预测是关注学习者当前的学习行为和未来学习成绩的关系。构建学生学习行为的特征向量，主要可以从以下三方面进行获取行为特征，包括线上学习行为收集、线下学习行为收集、基于视觉的自动化学习行为收集。

1.线上的学习行为数据收集

(1)课前数据收集

I学生的家庭信息：学生性别、年级、居住地、家庭成员数量、父母收入水平、职业等
II学生过往的成绩：包括课程单科、总分成绩（单元测试成绩、期中期末成绩），课外其他兴趣比赛成绩等。

(2)课中的数据收集

I每次线上课程的测验分数、资源访问次数、在线学习时间、材料阅读时间、登陆次数、网站论坛的发言次数、答题速度。

2.线下的学习行为数据收集

(1)受控和非受控学习行为：

I受控行为：在课堂是否主动记笔记、做阅读、做课堂练习、与同学交互、与师生交互、出勤次数。
II非受控行为：请假迟到次数、课堂讲话次数、是否积极做上课准备。

(2)课外活动观察：学生社交活跃程度、是否爱和同学交流问题、兴趣类型（运动/艺术）。

3.基于视觉获取学习行为数据

(1)学生的凝视目标、对黑板的凝视时间。

(2)面部表情、头部姿态、手势姿态、身体姿态。

4、分析：为了得到性能较好的模型，文献[1]实验表明采用上述三者结合而成的特征向量对模型训练可以得到最好的效果，决策树精度最高达到92.7%，召回率达到 95.2%、精确率达到 95.6%。其次，只用在线学习平台的学习特征识别精度要低于过在线学习和线下学习数据的特征融合。然而，线下学习行为特征收集比较费人力而不现实。基于视觉的自动化学习特征收集的算法复杂度高，以及摄像头对光线、遮挡、阴影等异常敏感，容易出现误识别等问题。采用线上学习行为的特征收集比较稳定，但是线上学习行为只是学习者片面的学习行为。单纯利用线上学习行为特征向量未能反映学习者的真实学习水平，进而难以有效的预测学习者的学习成绩。

5、补充：为了使得模型能够稳定的发挥作用，所采取的的学习特征集要经过平衡处理。其次，特征选择常用皮尔逊相关系数，通过设定阈值来排除相关度比较低的特征列。

二、模型的选择和评估

利用数据挖掘技术构建成绩预测模型，文献[2]指出朴素贝叶斯是最合适的预测算法，该文献对比了C4.5（决策树）、BP神经网络、3-NN、逻辑回归、SVM（SMO最小序列化）五种模型，表明朴素贝叶斯分类分类精度和灵敏度上优于它们。其次逻辑回归、BP神经和SVM也可以较好的分类。文献[2-3]均采用线上教学平台的数据作为训练集，因此所做实验具有一定的参考价值。文献[4]利用关联规则方法，挖掘出学习风格、学习行为和学习成绩之间的隐含规律，提供另一种学习成绩的预测方式。

1、基于分类方式预测

目前论文中所研究的成绩预测主要采用分类预测的方式，该方式主要将学生成绩划分为多个区间，通过划分区间将成绩预测变为分类问题，例如[70-74]，[75-79]，[80-84]，[85-90]，或者分为差（60分以下）、中（60-75）、良（76-89）或者优（90以上）等。

（1）决策树模型：使用C4.5 算法模型，该模型利用信息增益作为节点分裂的依据。决策树这类层次方法的主要优点是，它们将分类问题划分为一系列子问题，这些子问题在原则上比原来的问题更容易解决。最适合划分训练数据的属性是树的根节点。然后，算法在被划分的数据的每个分区上重复，创建子树，直到训练数据被划分为同一类的子集。该模型使用精确率、准确率、召回率和F值作为评价指标。

（2）朴素贝叶斯：该模型使用模拟退火算法，并选择简单评估器作为估计条件概率分布的算法。该算法进行了这样一个假设：给定class属性的状态，每个类属性都独立于其他属性。贝叶斯分类器对特征数据集进行操作，其中每个示例x由属性值<a1, a2…aii>和目标函数f(x)可以从预定义的有限集V=(v1, v2，…vj)中取任何值。该模型使用精确率、准确率、召回率和特异度作为评价指标。

（3）BP神经网络：该网络结构有输入层、隐藏层和输出层结合而成。常利用sigmod函数作为激活函数来输出分类，并利用最小二乘法来计算误差并调整网络参数。该模型使用精确率、准确率、召回率和特异度作为评价指标。

（4）K-NN模型：在文献[3]中,使用3-NN的近邻模型，该模型对于噪声有着更强的鲁棒性和时间复杂度较低。该模型使用准确率、召回率和特异度作为评价指标。

（5）逻辑回归LR：模型简洁有效，但是对于大规模数据集来说容易因为某些小概率特征而使得模型过拟合，导致在预测时候性能不佳。逻辑回归是将多元回归导入sigmod函数，使得分类器与属性之间的关系不是线性函数。结果将输出概率较大的类别作为可能的类别。该模型使用精确率、准确率、召回率和特异度作为评价指标。

文献[5]使用决策树、神经网络和线性判别法对学生的学习成绩按照优、中、差进行划分。结论研究发现，以前的教育背景、课程学时数、经济独立程度，学历、年龄相关度高。性别、父母学历、职业、婚姻状况与学业成绩无显著相关。其中线性判别法的分类结果最高为57.35%。然而该精度仍然是“不及格的精度”。
注：分类指标有准确率、精度、召回率、F1值、查准率、ROC曲线、AUC曲线

2、基于回归的成绩预测

文献[6]采用多元线性回归方程的方式对两所学校学生算数成绩和拼写阅读成绩做预测，该文研究学生的多种行为，如受控行为（注意力程度、与教师积极交流、与同学积极交流、上课回答问题、主动寻求帮助、听老师学习指令）、非受控行为（课堂小动作、离开座位玩、和同学随便聊天、不按老师纪律做、四处观望、不完成作业）。文献主要应用了前8个行为数据，研究结果显示，利用交叉验证方式后，受控行为建立的算数成绩预测模型精度达到69%和62.6%，对阅读和拼写成绩的预测达到65.7%/49.6%。该模型使用多重判定系数R方作为评价指标。
注：回归的评价指标有平均绝对误差、均方误差、判定系数等。

3、基于关联规则的方法

基于关联规则挖掘技术，可以得到一个“如果学习风格为某一类型，并且拥有特定网络学习行为，那么学习成绩将达到某种程度”的规则，从而揭示风格、行为和成绩之间未知的依赖关系。
文献[4]针对154名学生采用此类数据挖掘技术的频繁项集挖掘中应用较为广泛的Apfiofi算法，作者采用无监督属性离散方法中等频区间装箱法将学生成绩分为优、中、差三大类。作者的数据集由三者组成，人机自主学习属性（在浏览课件、视频时总耗时和平时作业的平均成绩）、人口统计属性（学习者的性别，年纪、学历背景和学习风格）人机协作学习属性（发言总字数和所有发言的总次数）。学习风格及其规则有：与学习风格无关的普适性规则、分散型学习者相关规则集、聚敛型学习者相关规则集、适应型学习者相关规则集、同化型学习者相关规则。通过设定关联规则为50条并利用置信度筛选出14条有意义的关联规则。
该文献的得出如下结论：1、学习风格和学习成绩之间并不存在直接关联，但学习风格差异影响了学习行为，而学习行为将在一定程度上决定学习成绩。2、分散型学习者擅长收集学习资料，但学习专注力可能相对涣散。3、聚敛型学习者多共享信息并且发表情绪类言论，能够在融洽的学习氛围中弥补独自学习的孤独感，有利于产生更多更有创造力的新观点。4、对于具有相同的网络学习行为，对于不同风格学习者可能获得截然不同的学习成绩。

三、总结

上述文献虽然大多数是针对大学生的学习成绩进行预测，但是对于中小学生来说任然是可用的。对中小学生的学习成绩预测，其学习特征集可采用线上学习行为数据、线下学习行为数据和基于视觉的自动化学习数据收集方式。然而考虑到收集成本和算法复杂度等外界因素时，基于线上学习数据收集来做学习特征有着更佳实际的意义。同时收集一些线下的学习数据更有助于模型对成绩的有效预测。
针对学习成绩预测模型的搭建通常采用分类方式有着更加高的准确率，其方式将成绩划分为多个区间，通过预测成绩的区间分布来对学生成绩做预测。使用常见的决策树模型便能得到一定有效预测。其次由于学习风格影响学习行为，进而影响学习成绩，因此将分类和关联规则算法进行融合可以得到学生的更多学习信息，使得模型提高对学生学习成绩的预测。

参考文献

[1]许炜,刘文同,詹晓庆,等. 基于大学课堂学习行为的成绩预测方法研究[J]. 现代教育技术,2021,31(6):104-111.
[2]Kotsiantis S, Pierrakeas C, Pintelas P. Predicting students’ performance in distance learning using machine learning techniques[J]. Applied Artificial Intelligence, 2004, (5):411-426.
[3]吴青,罗儒国.基于在线学习行为的学习成绩预测及教学反思[J].现代教育技术,2017,(6):18-24
[4]吴青,罗儒国,王权于.基于关联规则的网络学习行为实证研究[J].现代教育技术,2015,25(07):88-94.
[5]Vandamme J P, Meskens N, Superby J F. Predicting academic performance by data mining methods[J]. Education Economics, 2007, 15(4): 405.
[6]Cobb J A. Relationship of discrete classroom behaviors to fourth-grade academic achievement[J]. Journal of Educational Psychology, 1972, 63(1): 74.