阅读《Tri-Branch Convolutional Neural Networks for Top-k Focused Academic Performance Prediction》

摘要:学业成绩预测旨在利用与学生相关的信息来预测他们未来的学业成绩,这有利于许多教育应用,如个性化教学和学业预警。在本文中,我们通过分析学生的日常行为轨迹来解决这个问题,这些轨迹可以通过校园智能卡记录进行综合跟踪。不同于以往的研究,我们提出了一种新颖的Tri-Branch CNN架构,它配备了逐行、逐列和深度卷积和注意力操作,分别以端到端的方式捕捉学生行为的持久性、规律性和时间分布的特征。此外,我们将学业成绩预测视为top-k排名问题,并引入top-k重点损失,以确保识别学业风险学生的准确性。在大规模现实世界数据集上进行了广泛的实验,我们表明我们的方法大大优于最近提出的学术成绩预测方法。为了可重复性,我们的代码已在https://github.com/ZongJ1111/Academic-Performance-Prediction发布。

一、引言

学生成绩是高等教育机构优先考虑的因素,与他们的声誉高度相关。然而,学业失败的风险成为当今教育中日益严重的问题。根据美国国家教育统计中心[1],超过30%的大学新生在大学一年级后辍学。因此,大学不断寻找有效的方法来增强学生的学习体验.学业成绩预测旨在根据学生相关信息预测学生未来的学业成绩[2]。它不仅便于个性化教学,而且使教育工作者能够在学习中提供及时的干预,特别是对于那些学术风险学生[3]。

作为教育数据挖掘领域最流行的话题之一,在过去的几十年里,关于学业成绩预测的工作已经大量开展[4]。早期的努力是由教育和心理研究人员,他们揭示了影响学生学习成绩的基本因素,包括五大个性特征[5]、家庭环境[6]和学习动机[7]。尽管如此,这些研究都是基于学生的问卷和自我报告,可能存在样本量小和社会期望偏差的问题[8]。沿着另一条研究线,许多工作[9]、[10]专注于电子学习平台,例如MOOC(大规模开放在线课程),并根据学生的在线活动预测他们的学习成绩。例如,已经论证了期末考试分数与完成评估的次数、视频观看时间、课堂讨论参与度等密切相关,而这些在线下学习场景中几乎无法收集。

在教育心理学中,人们普遍认为人类行为与学习能力高度相关[11]。从这一点来看,随着校园IT应用的日益进步,出现了通过智能手机[12] 、[13]和校园WiFi[14]不显眼地收集学生校园行为实时记录的新机会,并了解学生的行为模式以进行学业成绩预测。同样的动机,学生的日常学习和生活活动也从校园一卡通记录中得到了全面感知。先前的研究[8]、[15]、[16]诉诸于基于学生校园智能卡记录手动提取高级行为特征,包括秩序、勤奋和睡眠模式,并将其用作学习成绩的潜在预测因素。然而,设计有效的手工行为特征相当具有挑战性,并且不可避免地需要相当多的领域专业知识和工程技能。

在本文中,我们试图通过挖掘校园智能卡记录来揭示学生的行为轨迹,并捕捉轨迹[17]、[18]所固有的特征,用于学生成绩预测。受深度学习在许多领域取得巨大成功的启发,我们提出了一种基于卷积神经网络(CNN)的端到端预测模型。具体而言,每个学生的行为轨迹被结构化并紧凑地编码为三阶张量,其维度分别对应于个人活动的日期、时间段和校园位置。由于CNN能够分层提取空间结构信息,我们精心设计了一种新颖的Tri-Branch CNN架构,该架构配备了三种类型的卷积核,即逐行、逐列和深度卷积,分别有效地捕捉学生行为的持久性、规律性和时间分布特征。此外,注意力模块被单独附加到每个卷积操作中,以自适应地权衡不同日期、时间段和校园位置的行为特征对学习成绩的影响。

另一方面学习成绩预测的一个主要目标是能够准确和早期识别有落后风险的学生以便教育工作者随后能够为这些学生提供学习指导和帮助。**然而,现有的研究[8]、[15]、[16]都以提高整体学生的预测性能为目标,而较少关注检测学业风险学生的准确性。**为了解决这个问题,我们按照学生学习成绩的升序对他们进行排名,排名前k的学生正好代表了表现最差的高危学生。因此,学业成绩预测可以被铸造为top-k排名问题[19],它更关心top-k结果的准确性。遵循成本敏感学习的思想[20],我们引入了一个top-k聚焦损失,它为处于较高位置的学生的训练样本分配较大的权重,而对那些仅涉及第k个位置之后的学生的样本分配较小的权重。这样,我们的算法优先确保学术风险学生的正确识别。

为了评估我们方法的能力,我们在一个大规模的真实世界数据集上进行了广泛的实验。我们对我们方法的各种配置进行了详细的消融研究,并将其与最近提出的几种也使用校园智能卡记录的方法进行了比较。此外,我们可视化了我们方法的训练模型,并提供了关于它如何用于学业成绩预测的见解。我们的代码已在https://github.com/ZongJ1111/Academic-Performance-Prediction发布。

总而言之,本文的主要贡献有三个方面:

  • 我们提出了一种新颖的Tri-BranchCNN架构,以从学生的行为轨迹中捕捉持久性、规律性和时间分布的特征。据我们所知,这是第一个以端到端的方式将学生的校园行为模式与学习成绩相关联的研究。
  • 我们将学业成绩预测视为top-k排名问题,其中top-k结果对应于学业上有风险的学生。通过引入top-k集中损失,我们使我们的算法能够优先考虑检测有风险学生的准确性。
  • 我们从不同的角度证明了我们方法的有效性,并获得了最先进的学业成绩预测结果。

论文的其余部分结构如下。第二节回顾了相关工作。第三节详细介绍了我们的学业成绩预测框架。实验结果和分析在第四节中报告,结论在第五节中报告。

二、相关工作

学业成绩预测因其在众多教育应用中的潜力而成为研究的热点。在早期阶段,一些生理和心理因素被证明与学生的学习成绩有显著的相关性,如健康状况[21]、[22]、智商[23]和个性特征[5]。然而,通常很难改变这些因素,以便帮助学生提高他们的学习成绩。此外,这些发现来自学生的问卷和自我报告,这些发现可能会受到各种不准确和偏见的影响[8]。

在电子学习环境中,根据学生的在线活动日志实现学业成绩预测。例如,Ren等人[24]开发了一种个性化的线性多元回归模型,通过考虑学生参与的学习课程、测验、视频和家庭作业的数量来预测MOOC的考试成绩。He等人[25]每周通过两种基于迁移学习的逻辑回归算法为有可能无法完成MOOC的学生构建预测模型。Kim等人[26]将学生的学习活动视为一个事件序列,并将其输入到双向长短期记忆网络中以预测学生毕业。Li等人[27]利用不同类型的学生学习行为形成多视角特征,提出了一种学生辍学预测的多视角半监督学习方法。Karimi等人[28]将学生课程关系建模为知识图谱,并利用图神经网络提取课程和学生嵌入来预测学生在给定课程中的表现。

另一方面,相当多的研究工作致力于预测学生在在线练习中的表现。其中,项目反应理论(IRT)[29]和确定性输入噪声门(DINA)模型[30]被广泛应用于表征学生对不同技能的熟练程度,然后基于技能和练习之间的关联矩阵建模学生正确解决练习的概率。对于客观和主观练习,Liu等人[31]在模糊集理论和教育假设下提出了一个模糊认知诊断框架,并通过考虑滑动和猜测因素模拟了每个练习的分数生成。此外,使用矩阵分解算法[32]解决了这个问题,该算法在给定具有一些历史分数的学生练习成绩矩阵的情况下预测学生的未知分数。作为进一步的步骤,Liu等人[2]通过探索学生的锻炼记录和相应练习的文本内容,提出了一种锻炼增强的循环神经网络。

在离线学习环境中,学生学习活动的详细日志的可用性构成了一个巨大的障碍。 因此,大多数以前的学习成绩预测方法依赖于人口统计资料[33]、[34]、过去的课程成绩[35]、[36]、课堂学习参与度[37]、[38]、家庭作业实践[39]等。近年来,学生的行为数据越来越受到关注,并与学习成绩相关。例如,Wang等人[12]、[13]利用智能手机传感数据来了解高学业成绩者和低学业成绩者之间的个体行为差异,并提出了一个简单的LASSO线性回归学业成绩预测器。周等人[14]利用无线局域网纵向数据对学生上课的准时性进行了表征,并分析了准时性与成绩的关系。但是,无论是智能手机传感数据还是WLAN数据,都需要专门从少数学生志愿者那里收集。相比之下,曹等人[16]和姚等人[8]通过大规模挖掘校园智能卡记录来跟踪学生的日常活动,并提取有序、勤奋和睡眠模式三个高级行为特征,以预测学生的表现排名。同时,在社会影响理论的激励下,他们发现行为相似的学生有接近的学习成绩,并纳入学生相似度来帮助预测没有足够行为数据的学生[15]。Lian等人[40]研究了基于学生借书历史的学业成绩预测,并开发了一种多任务学习的监督矩阵分解算法,用于协同学业成绩预测和图书馆图书推荐。

尽管取得了显著的进步,但所有这些工作都以各种方式手动设计了学生的行为特征,这些特征高度依赖于领域专业知识和工程技能。相比之下,在本文中,我们提出了一种基于CNN的新型深度学习模型,以自动捕捉学生行为轨迹中固有的特征。此外,类似于[8],[16],我们的目标是预测学生的表现排名,但优先确保top-k结果的准确性,这恰好指的是我们研究中的学业风险学生。

三、框架

在本节中,我们首先通过考虑学生的校园行为轨迹来制定学习成绩预测问题。然后,我们说明了学业成绩预测的Tri-Branch CNN架构。最后,我们引入top-k聚焦损失来进一步优化识别学业风险学生的准确性。

A.问题描述

通过挖掘校园智能卡记录,可以在一定程度上揭示学生的行为轨迹。对于每个学生,我们收集学生的原始校园智能卡记录,并将单个记录存储为三元组 ( d i , t j , l k ) (d_i, t_j,l_k) ditjlk,这表明学生在第 i i i天的第 j j j个时间段出现在第 k k k个校园位置。此外,我们将学生的行为轨迹表示为三阶张量 X ∈ R n d × n t × n l X \in R ^{n_d × n_t × n_l} XRnd×nt×nl,其中 n d n_d nd表示记录跨越的天数, n t n_t nt表示一天中划分的时间段数, n l n_l nl表示记录中涉及的校园位置数。如果收集的学生记录包含三元组 ( d i , t j , l k ) (d_i, t_j,l_k) ditjlk,我们设置 X ( i , j , k ) = 1 X(i,j,k)=1 Xijk=1,其中 X ( i , j , k ) X(i,j,k) Xijk表示 X X X的第 ( i , j , k ) (i,j,k) ijk元素;否则, X ( i , j , k ) X(i,j,k) Xijk等于零。
在本文中,我们试图从学生的校园行为轨迹中捕捉他们的行为特征,并将这些知识与他们的学业表现相关联。形式上,目标是找到一个映射函数 f : R n d × n t × n l → R f: R ^{n_d × n_t × n_l} → R fRnd×nt×nlR,其中给定学生X的轨迹表示, f ( X ) f(X) fX是反映学生表现水平的实值。然而,直接估计学生学习成绩的绝对等级相当困难;相反,学生之间的相对比较可以更可靠地判断[8],[16]。因此,训练样本以学生之间学习成绩的成对比较的形式提供,即 ( X u , X v , y u v ) (X_u,X_v,y_{uv}) XuXvyuv,其中 X u , X v ∈ R n d × n t × n l X_u,X_v \in R^{n_d × n_t × n_l} XuXvRnd×nt×nl是两个学生 u u u v v v的表示, y u v ∈ { − 1 , + 1 } y_{uv} \in \{−1,+1\} yuv{1+1}表示他们的相对表现。也就是说, y u v = + 1 y_{uv}=+1 yuv=+1表示 u u u的学习成绩比 v v v好, y u v = − 1 y_{uv}=−1 yuv=1相反。期望的映射函数 f ( ⋅ ) f(·) f需要与学生之间的成对比较一致,因此可以通过 h i n g e    l o s s hinge~~loss hinge  loss [41]来学习,即
∑ ( X u , X v , y u v ) ∈ D m a x ( 0 , y u v ( f ( X v ) − f ( X u ) ) + 1 ) ∑_{(X_u,X_v,y_{uv})∈D} max(0, y_{uv} (f (X_v) − f (X_u)) + 1) (XuXvyuv)Dmax(0,yuv(f(Xv)f(Xu))+1)
其中D表示所有训练样本的集合。
图1

B.Tri-Branch CNN

我们提出了一种新的基于CNN的深度学习模型,即Tri-Branch CNN,作为映射函数 f ( ⋅ ) f(·) f的实例化。图1显示了Tri-Branch CNN的架构。该网络接受每个学生的张量表示 X X X,并将其输入到三个平行分支,即persistence-aware branch、regularity-aware branch和distribution-aware branch。这三个分支分别具有逐行、逐列和深度卷积和注意力操作,分别起到捕捉学生行为的持久性、规律性和时间分布特征的作用。最后,三个分支的输出通过融合子网络合并,其中引入了多任务学习[42],分别产生不同专业学生的学业成绩 f ( X ) f(X) fX。下面,我们详细介绍每个网络分支和融合子网。
persistence-aware branch:如果一个学生一天中在同一个地方呆了很多个小时,这表明该学生的行为在那一天具有长持续性特征。为了捕获这些信息,我们在persistence-aware branch中执行内核大小 1 × s 1×s 1×s的逐行卷积。由于卷积运算能够发现数据的局部空间结构,逐行卷积对每天连续时隙的变化进行建模。此外,学生在不同日期的行为特征可能对他们的学习成绩有不同的影响。例如,随着期末考试的临近,更加努力地学习更有利于取得好成绩。在观察的激励下,我们在卷积运算后附加了逐行注意力机制,这使得网络能够自适应地确定不同日期的重要性。用 F r ∈ R n d × n t × n l F_r \in R^{n_d × n_t × n_l} FrRnd×nt×nl表示persistence-aware branch中每个逐行卷积输出的特征图。行上下文描述符 d r ∈ R n d × 1 d_r ∈ R^{n_d×1} drRnd×1是通过压缩 F r F_r Fr的时隙和位置维度生成的

d r ( i ) = 1 n t × n l ∑ j = 1 n t ∑ k = 1 n l F r ( i , j , k ) , d_r (i) = \frac{1} { n_t × n_l} ∑_{ j=1}^{n_t} ∑_{ k=1 }^{n_l}F_r (i, j, k), dr(i)=nt×nl1j=1ntk=1nlFr(i,j,k),

其中 d r ( i ) d_r (i) dr(i) d r d_r dr的第 i i i个元素, F r ( i , j , k ) F_r(i, j, k) Fr(i,j,k) F r F_r Fr的第 ( i , j , k ) (i,j,k) ijk个元素。然后, d r d_r dr被用作引导,在 F r F_r Fr的行上产生一个软注意力映射 a r ∈ R n d × 1 a_r \in R^{n_d×1} arRnd×1。这是通过具有bottleneck结构[43]的简单两层感知器实现的,即 a r = M L P ( d r ) a_r= MLP (d_r) ar=MLP(dr)

其中第一层以 r r r的比例进行维度缩减,而第二层是再次将维度增加到 n d n_d nd。最后, a r a_r ar沿时隙和位置维度广播, F r F_r Fr可以通过与 a r a_r ar进行element-wise product来重新校准。 F r ∗ = a r ⊗ F r . F_{r}^{*} = a_r ⊗ F_r . Fr=arFr.
在persistence-aware branch,由逐行卷积和注意力操作组成的块被重复b次。随着分支的深入,卷积核的局部感受场不断扩大。因此,可以有效地提取每天长时间间隔的持久性特征。

Regularity-aware Branch:如果一个学生每天在固定的时间访问同一个地方,这意味着该学生的行为在那个时间具有很强的规律性特征。因此,我们在regularity-aware branch中使用核大小 s × 1 s×1 s×1的逐列卷积,它捕获了同一时隙连续天数的变化。此外,通过应用逐列关注机制获得不同时隙的权重。设 F c ∈ R n d × n t × n l F_c \in R^{n_d × n_t × n_l} FcRnd×nt×nl为正则感知分支中每个逐列卷积生成的特征图。列上下文描述符 d c ∈ R n t × 1 d_c ∈ R^{n_t×1} dcRnt×1可以通过日期和位置维度收缩 F c F_c Fc来获取:

d c ( j ) = 1 n d × n l ∑ i = 1 n d ∑ k = 1 n l F c ( i , j , k ) , d_c (j) = \frac{1} { n_d × n_l} ∑_{ i=1}^{n_d} ∑_{ k=1 }^{n_l}F_c (i, j, k), dc(j)=nd×nl1i=1ndk=1nlFc(i,j,k),

与公式(3)类似,我们使用两层感知器从 d c d_c dc生成列上的软注意力映射 a c a_c ac,它的维度依次进行减少和增加。 a c a_c ac需要沿着日期和位置维度进行广播,以便 F c F_c Fc a c a_c ac的形状对于随后的element-wise乘法结果是兼容的,从而得到重新校准的特征图 F c ∗ F_c^* Fc

Distribution-aware Branch:学生在不同校园位置的出现通常对应于他/她的不同行为,例如,出现在图书馆、超市、自助餐厅、购物和吃饭等分别隐含地暴露了学习的行为,在不同位置的行为之间独立的假设下,我们在分布感知分支中采用深度卷积[44],其中每个输入通道执行大小为 s × s s×s s×s的单个卷积核。通过这种方式,可以分别捕获每个行为在日期和时隙上的时间分布模式。我们用 F d ∈ R n d × n t × n l F_d \in R^{n_d × n_t × n_l} FdRnd×nt×nl表示从每个深度卷积计算的特征图。深度注意机制进一步施加在 F d F_d Fd上,以权衡不同位置行为的影响,其中深度上下文描述符 d d ∈ R n l × 1 d_d \in R^{n_l×1} ddRnl×1由下式计算

d d ( k ) = 1 n d × n t ∑ i = 1 n d ∑ j = 1 n t F d ( i , j , k ) , d_d (k) = \frac{1} { n_d × n_t} ∑_{ i=1}^{n_d} ∑_{ j=1 }^{n_t}F_d (i, j, k), dd(k)=nd×nt1i=1ndj=1ntFd(i,j,k),

Fusion Sub-network:在persistence-aware、regularity-aware和distribution-aware分支的末尾,我们对每个特征图的每一行、每一列和非重叠的局部区域执行最大池化,导致三个输出分别编码每天行为持久性的总体特征、每个时隙的行为规律性以及每个位置的行为的时间分布特征。然后,将它们扁平连接,并传递给融合子网络,该融合子网络被设计为一个简单的三层全连接结构。通过融合子网络中的多层非线性变换,可以很好地平衡和合并从不同网络分支中提取的特征,用于学业成绩预测。请注意,融合子网也可能采用更复杂的架构,但我们将它们留给未来探索。

而且,由于跨专业的学习成绩测试内容不一致,为所有学生构建相同的学习成绩预测模型是不合适的。因此,我们将针对各专业学生的预测视为单个任务,引入多任务学习[42],在统一的框架内共同解决不同的任务。如图1所示,我们遵循经典的硬参数共享策略[45],即三个网络分支在不同任务之间共享,而分裂发生在融合子网络处,用于特定任务的预测。通过多任务学习,我们不仅可以从不同任务之间的相关性中受益,而且可以缓解一些专业学生人数少的问题[46]。

C. Top-k Focused Loss

如前所述,学业成绩预测的一个关键目标是能够准确和早期识别有落后于他人风险的学生,以便教育工作者能够为有风险的学生提供及时干预和个性化指导[25],[38]。为此,我们按照学生学习成绩的升序对他们进行排名,排名前k的学生正是指表现最差的高危学生。在我们的研究中,学习成绩预测因此被视为一个top-k排名问题[19],它更关心top-k排名学生的准确性。

具体来说,我们采用cost-sensitive learning(成本敏感学习) [20],并为学生之间成对比较的训练样本分配不同的权重。由 r \bold{r} r表示学生在学习成绩上升中的真实排名,其元素 r ( u ) r(u) r(u)表示学生 u u u的排名位置。同时,我们定义了当 u u u排名高于其他人时可以获得的增益(Gain),这与学生在真实排名中的位置成反比,
g ( u ) = n s − r ( u ) + 1 g(u) = n_s − r(u) + 1 g(u)=nsr(u)+1

其中 n s n_s ns是学生总数。遵循信息检索中流行的折损累计增益(Discounted Cumulative Gain, DCG)[47]指标,给定两个学生 u u u v v v,当 u u u v v v排列在正确的位置 r ( u ) r(u) r(u) r ( v ) r(v) r(v)时,它们的累积增益可以通过以下方式计算
在这里插入图片描述
在这里插入图片描述
其中每个学生的增益被对数位置因子贴现。然后,我们交换 u u u v v v r \bold{r} r中的位置,观察DCG值的变化
![在这里插入图片描述](https://img-blog.csdnimg.cn/eee1aea54e654
通过将等式(7)代入等式(9) ∆ D C G u ↔ v ∆DCG_{u↔v} DCGuv可以被重写为
在这里插入图片描述
基于以上定义,对于训练样本 ( X u 、 X v 、 y u v ) (X_u、X_v、y_{uv}) XuXvyuv,对应的权重经验定义为
在这里插入图片描述
在这里, Δ D C G m a x ΔDCG_{max} ΔDCGmax是一个表示 D C G DCG DCG值最大变化的归一化因子,当我们交换 r \bold{r} r中的第一个和最后一个学生时可以实现,
在这里插入图片描述
直观地,如果 u u u v v v属于 r \bold{r} r中排名前 k k k的学生,我们将 ∆ D C G u ↔ v ∆DCG_{u↔v} DCGuv的归一化值作为样本权重 W u v W_{uv} Wuv。因为 ∆ D C G u ↔ v ∆DCG_{u↔v} DCGuv的定义包括如等式(10)所示的位置折扣因子,所以在较高的位置交换 u u u v v v会导致 D C G DCG DCG值的更多变化,并为样本分配更大的权重。相反,如果 u u u v v v都出现在 r \bold{r} r中的第 k k k个位置之后,则交换它们的位置时对 t o p − k top-k topk结果的准确性没有影响。因此,我们将 W u v W_{uv} Wuv设置为小常数 η η η

使用样本权重, t o p − k top-k topk聚焦损失可以简单地通过下式实现
在这里插入图片描述
由于涉及较高位置的学生的训练样本权重较大,这些样本的错误分类将导致更大的损失和更多的反向传播梯度;相反,仅涉及第 k k k个排名之后的学生的训练样本被分配了较小的权重,并且他们在训练期间的贡献较少。因此,通过最小化这个新的损失函数,我们的方法优先确保 r \bold{r} r t o p − k top-k topk结果的准确性,也就是说,确保学业风险学生的正确识别。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值