Set-to-Sequence Ranking-Based Concept-Aware Learning Path Recommendation阅读笔记

📋标题:Set-to-Sequence Ranking-Based Concept-Aware Learning Path Recommendation

🎓作者:Chen Xianyu,Shen Jian,Xia Wei,Jin Jiarui,Song Yakun,Zhang Weinan,Liu Weiwen,Zhu Menghui,Tang Ruiming,Dong Kai,Xia Dingyin,Yu Yong🗓️出版期刊和年份:AAAI-2023📍影响因子:

作者单位:上海交通大学 华为诺亚方舟实验室 华为科技股份有限公司


💭引用:Chen, X. et al. Set-to-Sequence Ranking-Based Concept-Aware Learning Path Recommendation. AAAI 37, 5027–5035 (2023).

🌟论文代码地址:

https://gitee.com/mindspore/models/tree/master/research/recommend/SRC

🌟数据集地址:

https://sites.google.com/site/assistmentsdata/home/20092010-assistment-data

https://www.kaggle.com/datasets/junyiacademy/learningactivity-public-dataset-by-junyi-academy


🎯研究背景:

(1)研究的出发点:

随着在线教育系统的发展,个性化教育推荐起到了至关重要的角色。

(2)以前相关领域研究的不足:

1)没有考虑路径中各概念之间的相关性。

详细描述:现有的大多数解决学习路径规划的方法要么是基于知识图谱(或概念之间的某种关系)来约束路径生成,要么是基于特征的协同过滤来搜索路径。然而,这些模型并不能深入认知结构的重要特征,模型相对简单,导致生成的路径存在个性化程度低和学习效果差等问题。

2)现有的路径推荐算法很难提供一条高效的学习路径,这是因为仅仅使用路径末端可用的反馈来优化路径仍然具有挑战性。

3)研究难点:

1)为学生一次性规划一定长度的学习路径(因为用户有时希望一开始就知道整个学习路径)更加受限和复杂(例如,较大的搜索空间,较少的可用反馈),因此更具挑战性,也是本文的主要研究重点。

2)如何有效地挖掘概念之间的关联以及学生在学习路径规划中的重要特征仍然具有挑战性,具体挑战总结如下:

(C1)如何有效地挖掘概念间的相关性?概念之间可能存在复杂多样的关联,如前提关系、协同关系等,这些都会影响学生对概念的学习。如图1所示,掌握A (数学分析)对掌握B (概率论)的帮助较大,对掌握C (线性代数)的帮助较小。[这个咋看的?]因此,在规划学习路径时应将其考虑在内。

(C2)如何有效利用学生对目标概念的学习效果,对生成算法进行评价和优化?如图1所示,我们期望学生在目标概念D (机器学习)上取得最好的提升。然而,现有的路径推荐算法很难提供一条高效的学习路径,这是因为仅仅使用路径末端可用的反馈来优化路径仍然具有挑战性。相比之下,在分步推荐场景中,可以在每一步结束时获得即时反馈,这使得一些更先进的强化学习(RL)算法得以应用。

(C3)如何将学生对学习概念的反馈纳入模型?如图1所示,学生对概念A、B、C在学习后的路径上有不同的学习反馈。在知识追踪( KT )领域,这些信息对学生的知识水平建模起到着重要作用。许多模型将学生过去的答案作为特征来预测当前的答案。但在路径推荐中,这种反馈只能在路径结束后才能获得,因此上述方法在这里很难实现。

🎞️研究内容:

(1)研究重点:

开发路径推荐系统,为给定的用户的每个会话生成并推荐完整的学习路径。

(2)新框架

提出了“基于集合到序列排序的概念感知学习路径推荐(SRC)”新框架,该框架在集合到序列范式下制定推荐任务。

详细描述:

1)先设计一个概念感知编码器模块,它可以捕捉输入学习概念之间的相关性。

2)将输出结果输入解码器模块,解码器模块会通过关注机制按顺序生成一条路径,该关注机制会处理学习概念和目标概念之间的相关性。

3)推荐策略通过策略梯度优化。

4)引入一个基于知识追踪的辅助模块,通过评估学生对学习概念的学习效果来增强模型的稳定性。

💡创新点:

本文提出了一个新的基于集合到序列排序的概念感知框架SRC,既考虑到了学习概念之间的相关性,又保留了其本身的特征。提高了推荐的有效性和稳定性。

🚩研究方法:

(1)对三个挑战分别给了应对的策略:
C1挖掘概念间的相关性。

设计了一个概念感知编码器模块。该模块可以全局计算每个学习概念与集合中其他学习概念之间的相关性,从而获得更丰富的概念表示。同时,在解码器模块中,本文一方面使用循环神经网络来更新学生的状态;一方面利用注意力机制来计算集合中剩余的学习概念与目标概念之间的相关性,从而选择路径当前位置上最合适的概念。

C2有效地利用目标概念的反馈。

考虑到反馈一般是连续的且路径空间较大,在这种情况下策略梯度算法更为适用。因此,前一个解码器计算的学习概念与目标概念之间的相关性可以用选择概率的形式来表示。这样得到了一个参数化的策略,并且可以以奖励最大化的方式来更新模型参数。

C3将学生对学习概念的反馈纳入模型。

设计了一个辅助模块来利用对学习概念的反馈。与KT(知识追踪)任务类似,前编码器在每一步更新的学生状态都会输入MLP(多层感知机),以预测学生在该步骤的答案。这样,学生对学习概念的反馈可以参与模型参数的更新,提高算法的稳定性。

(2)框架SRC概述

SRC由编码器、解码器和KT辅助模块组成。

工作流程:
1)获得学习概念表征:

概念感知编码器对候选项所学概念之间的相关性进行建模,捕捉候选集S中概念之间的相关性,获得概念ES的表示(全局表征)。

2)生成排列方式和概率:

解码器根据ES、T(目标概念)和H(历史序列)的信息生成S的排序,并输出策略π。使用循环神经网络对学生沿路径的知识边缘状态进行建模,并通过注意力机制计算学习概念与目标概念之间的相关性,以确定最适合该位置的概念。除此之外,基于解码器中得到的知识状态,进一步预测了学生对学习概念的答案。在学习路径的最后,将得到的反馈ET和Y π传递给模型进行参数优化。

3)预测概率的辅助任务:

KT辅助模块负责预测路径上每一步的正确概率。(缺乏对反馈的利用可能会影响解码器的性能。为此,开发了该模块来预测学生过程中的掌握情况,作为辅助任务,以增强其他模块的可靠性和稳定性。)

算法伪代码:

(3)信息补充:

1)通用性:本文使用注意力机制来挖掘概念间的相关性,并充分利用学生的各种反馈来优化相关性的建模,这使得我们的方法更具通用性。

2)稳定性:本文使用RL中的策略梯度进行优化,但是没有即时反馈,只有路径结束后的延迟反馈,训练可能更加困难。因此,本文引入KT辅助任务来增强模型的稳定性。

3)学习路径推荐的定义:给定学生的历史学习序列H、目标概念T和候选概念集S,需要从S中无重复地选择n个概念并进行排序,生成路径π推荐给学生。最终目标是最大化路径末端的学习效应ET。

(4)部分重要的公式
1)learning effect的量化

本文将这个视为RL中的奖励

Ee和Eb分别表示路径π (这可以通过考试获得)前后学生对目标概念的掌握程度,Esup表示掌握程度的上界。同时,还可以观察路径结束后学生对学习概念的掌握情况Y π = { yπ1,yπ2,· · ·,yπn }。[数据通过学生模拟获得]

2)全局表征Es

将自注意力极值应用于Xs得到Eas

 

通过一个简单的多层感知器( MLP )进行嵌入,并加入平均池化部分得到Els:

3)生成排列方式和概率

参考文献 Pointer Network方法利用fd:

利用LSTM(g)来追踪学生状态评估当前最合适的学习概念,在g中学生的初始状态vo计算如下:

综合考虑学生的知识状态、学习概念和目标概念,计算当前步骤下每个学习概念的得分:

进一步使用softmax计算剩余概念中的概率,并将选中的概率设为0

根据得到的概率分布进行采样,更新相应的状态vi:

根据上述方法,逐步生成最终路径π = { π1,· · ·,πn },每一步对应的概率P = { pπ1,· · ·,pπn }。这条路径将在后面推荐给学生。

4)利用KT预测概率:

预测学生成功掌握的概率pk π i为:

fy表示MLP。

5)路径策略梯度损失:

引入了知识追踪辅助模块中的预测概率py π i与学习概念的实际反馈y π i之间的交叉熵:

综合上面两种损失获得全路径的最终损失:

其中,β可以为0或1,用于控制是否使用KT任务辅助训练。

(5)数据集

ASSIST091、Junyi。

数据集存在问题:

所有的数据都是静态的,即只有学生事先回答过的概念的答案才是已知的。静态的数据无法满足本实验的要求。

解决对策:

设计能够动态评估学生知识水平并返回反馈的模拟器。

具体来说,该模拟器是数据驱动的。本文在静态数据上训练KT模型。模型的输入为学生过去的学习序列,输出为当前的概念答题概率。模拟器训练完成后,可以利用其模拟学生在各种模型推荐的路径上的学习情况,得到相应的ET,完成效果评估。为了增强实验的可靠性,本文使用了两个KT模型:DKT和CoKT来构建不同的模拟器。

评价指标:学习率ET

(6)实验结果

p指的是候选集S的不同选择方式。具体来说,若推荐路径长度为n,则S的来源为:1。n个概念的固定个数;2 .对所有概念进行分组,每组大小为n,每次随机选取一组;3 .每次随机选取n个概念;4 .所有概念。p = 0,1,2,3依次代表这四种来源。

实验结果分析:

1)本文的模型SRC在任何情况下都优于所有的基线。

2)在DKT中,与其他基线相比,基于规则的方法总体上取得了最好的性能。但在CoKT中,该方法的性能较差,多数情况下与随机方法接近。总体而言,CoKT下的学习难度更大。

4)GRU4Rec在某些情况下表现良好。表明学生原有的学习序列具有一定的价值,能在一定程度上反映概念之间的关系。

5)DQN在大多数情况下(在DKT中为第3位,在CoKT中为第2位)表现良好。这体现了基于交互的强化学习方法在该场景下的优越性。

消融实验:

SRCA:编码器只用自注意机制

SRCM:编码器只用MLP

SRC-:训练期间均值β = 0,即没有KT辅助模块

实验分析结论:

1)可以看出在替换原始编码器后,无论是否加入KT模块,模型的性能都有所下降。这说明结合自注意力和MLP的SRC中的编码器确实保留了两者的优点,既挖掘了概念之间的相关性又保留了自身的特征。

2)在SRC - A中,去除KT模块后,模型性能相比于SRCA出现了非常大的下降,远远超过了其他两种情况。除此之外,SRC - A在其他模型从未经历过的实验中有时并不收敛。说明在这种稀疏奖励强化学习范式下,这类复杂网络的训练难度会显著增加。

不同路径长度影响实验:

实验分析结论:

1)各种模型在不同长度下的性能排名基本不变,进一步说明了本文模型的有效性。

2)学习效果ET均随着路径长度的增加而增加,这也符合教育中的直觉。

3)在p = 3的场景下,所有模型的性能增长在长度> 20之后变得非常缓慢。这可能是因为在这个场景中组成路径的概念是可以被模型选择的。虽然对学习目标概念有帮助的概念数量有限,但在路径较短时就已经被选择。在更长的路径上添加的概念几乎没有价值,并且会被遗忘等因素抵消。

工业数据集上的实验:

将模型部署在华为在线教育部门。

数据集:包括159名学生和614个概念,平均轨迹长度为108.99。

结果:在多数情况下SRC表现出最好的性能,说明本文的方法具有有效性和泛化性。

✅研究结论:

本文将在线教育系统的路径推荐建模为一个集合到序列的任务,并提出了一个新的基于集合到序列排序的概念感知框架SRC。

✅未来研究方向:

(1)进一步探索概念之间的关系,比如使用图神经网络。

(2)在现实的在线教育系统中进一步部署本文的模型。

👀个人总结:

1)有两个学习领域的数据集ASSIST091、Junyi

2)静态的数据可以利用模拟器训练得到评估的结果


📚知识拓展:

(1)适应性学习

旨在为不同学习者量身定制不同的学习目标,以满足不同学习者的个性化需求(卡沃内利1970 )。

(2)现有的学习内容推荐方法可以归纳为两类:

( i )分步推荐,实时为学生推荐下一个学习项目,每一步(即学生的回答)的交互都会融入到下一步的推荐中。

( ii )为学生一次性规划一定长度的学习路径。因为用户有时希望一开始就知道整个学习路径。由于该方法的(例如,较大的搜索空间,较少的可用反馈)更加受限和复杂,因此更具挑战性,也是本文的主要研究重点。

(3)Set-to-Sequence Formulation

set - to - sequence任务旨在将一组无序的候选项排列组合成一个序列,其解决方案可以大致分为三种方法:point-wise,pair-wise和list - wise。1)point-wise应用最为广泛,该方法旨在对每个项目进行单独评分,然后将项目按其得分降序排列。2)pair-wise不关心每个项目的具体得分。相反,将问题配对化,重点预测每对项目之间的相对顺序。3)list - wise将整个序列视为一个整体,使得模型可以细致地挖掘项目之间的深层相关性。

注意到学生对一个概念的反馈很可能会受到同一路径上其他概念的显著影响,因此本文在此以列表的方式list-wise设计本文的模型。

list - wise的主要困难在于排序过程不是完全可分的,因为没有可用于排序操作的梯度。 近期文献( Oosterhuis 2021 )提出的一种解决方案是策略梯度算法( Williams 1992 )。

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 9
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值