A learning path recommendation model based on a multidimensional knowledge graph framework for e-learning
原文地址
发表期刊:Knowledge-Based Systems/爱思唯尔(SCI 1区收录)
发表年代:2020年2月6日
关键词:Learning path recommendation;Knowledge graph;e-learning;Learning needs
Motivation
前人的不足:
最近的研究集中在生成高质量的定制学习路径以满足在线学习者。这些基于聚类的学习路径生成方法通常会收集冗余或不相关的学习对象,因为它们忽略了学习对象之间潜在的依赖关系。
其他工作使用知识图谱将这些依赖关系应用到学习路径推荐模型中,并取得了一些成功。然而,他们只是建立了最简单的关系来连接学习对象,而没有在关系中构建更复杂的语义来进一步探索。这些工作没有充分利用知识图谱的连通性,利用各种语义关系将学习对象连接起来。因此,它们只能生成单一的学习路径无法满足当今在线学习者的不同学习需求。
本论文的idea
相较于前人,本文提出的多维知识图谱可以表达更丰富更复杂的语义,基于这种知识图谱框架,可以对不同学科、不同课程的学习对象进行适当的合并和组织。
同时基于这种多维知识图谱框架,根据学习者查询的目标学习节点进行若干条学习路径的生成和最佳路径筛选,筛选的过程中不仅考虑了路径中所有节点的特征,还加权了学习者自身的偏好。
Contribution
- 设计了一个多维/层次的知识图谱框架,该框架适用于其他更多的在线学习领域,提高学习效率。
- 根据学习者的检索内容(想学的学习对象+学习要求),生成多条从基础知识到该学习对象的路径,并从中找到评分最好的路径。
- 根据此框架做了一个在线学习系统,该系统由图形数据库、网站后台和网站界面交互三部分组成。
Solution
设计知识图谱
以部分机器学习知识为例,构建了一个应用于学习路径推荐模型的多维知识图谱:
左图是以往的工作中单维知识图谱框架;右图是本文提出的多维知识图谱框架,实线的剪头代表类内关系,虚线的剪头代表类间关系,不同颜色的节点代表不同类(维度)的学习对象。
下面将从多维知识图谱框架的几个方面进行介绍
Learning object (LO):学习对象是一个元学习材料单元,包括基本信息(名称、描述等)和学习链接,每个学习对象都可以独立地进行学习。
学习对象分为三类:
- 基础知识:包含支持算法的所有必要的基础知识学习对象,如“朴素贝叶斯”和“贝叶斯统计”
- 算法:包含与特定知识领域相关的所有算法(例如“贝叶斯分类器”),算法是实现/解决特定任务的方法
- 任务:本案例包含了机器学习领域的“自然语言处理”、“情感分析”等所有实践任务
Relationship (RE):关系是指不同学习对象之间的关系在语义上的依赖关系,下图给出了三个学习对象之间的关系
学习对象之间的关系有6种,如下图
由LO和RE构成了有向的知识图谱:
K
G
=
(
L
O
,
R
E
)
KG = (LO, RE)
KG=(LO,RE)
Learning need:学习需要是学习者期望how to learn目标学习对象。
例如,当我们有目标学习对象“Region_Based_CNN”时,那么**“Region_Based_CNN的先验知识是什么”和“如何通过基础知识实现Region_Based_CNN”**是两个不同的学习需求。在本研究中,我们预先设定了六种学习需求,如下图:
Target learning object: 目标学习对象是学习个体在当前学习阶段想要学习的东西。
在学习路径推荐中,目标学习对象总是学习路径的最后一个节点。
Learning path (LP):学习路径是为实现特定学习目标而生成的学习对象序列。
如下图是为了学习“实体识别”的学习路径:
数据收集
构建好知识图谱和学习路径的框架后,接下来要做的就是收集数据了。
以本文所使用的机器学习领域知识作为用例,构建完成的知识图谱由225个基础知识对象,361个算法对象,89个任务对象,1033个关系组成,运用数据挖掘和专家知识验证的方法来爬取以上数据:
- 从一些教育网站抓取关于算法和任务的信息,对其进行去重、存储为结构化数据
- 从人工智能和数学的教科书中爬取有关基本知识的信息,以生成一个基础知识的命名实体列表。
- 最后利用该列表训练命名实体识别模型,识别算法中的基础知识,并提取目标基础知识与当前算法之间的关系
- 至此获得了所有学习对象和关系的原始数据。然而,由于来自网络的数据并不总是可靠的,因此需要人工手动校对学习对象的信息,纠正错误的关系。
学习路径推荐模型
生成所有可能的路径
输入:目标学习对象、学习需求(作为约束条件,将不符合条件的关系排除)
输出:生成所有可能的从基础知识——目标学习节点的学习路径
具体算法步骤如下图:
该算法的首先是根据学习需求计算关系约束φ,即当前学习路径中可能出现的一组关系。根据学习需求Nu,所有对应的关系约束φ = (α, β, γ, δ…)将由getRelationConstraint(Nu)得到,φ是属于RE集合的。
算法的第二步是根据关系约束φ生成学习路径,学习路径生成将从目标学习对象开始,在约束条件下搜索由关系连接的下一个学习对象,然后,从连接的学习对象继续搜索。当当前学习对象没有连接的学习对象时,这是当前学习路径的起点(第一个学习对象)。
在此基础上,算法从目标学习对象开始贪婪搜索,直到遍历生成所有可能的学习路径p。
选出评分最高的路径
在上一部分中我们已经获得了若干条抵达目标学习对象的路径,要想从中选出客观和主观上最佳的学习路径,要引入以下两个概念来量化学习路径。
对于一个学习对象,前文已经提到它有描述信息,这些描述信息可以组成特征集(F),分别是发表时间(f1)、被引次数(f2)、搜索频率(f3)、出版商影响力(f4)和作者影响力(f5),下图给了5个方面特征的量化方法:
这里是把整个学习路径作为f(·)的输入了,可以把
f
i
(
P
i
)
f_i(P_i)
fi(Pi)想象成一个列向量,每个元素指代一个学习对象的特征指标。
有了描述学习对象的客观指标后,学习者的主观偏好也应该被考虑到学习路径中去。
根据以往的经验,学习者会从**“新颖”、“权威"和"流行”**三个方面去查找目标学习对象,本文将这三个方向作为学习者的偏好,学习者在检索目标时也应该被要求按照这三个方向补充偏好。
采用加权法(
W
W
W)对特征进行约束,其中每个权重(
w
i
w_i
wi)对应一个特定的特征(
f
i
f_i
fi),三个方向的加权分布如下:
偏好\权重 | w 1 w_1 w1 w 2 w_2 w2 w 3 w_3 w3 w 4 w_4 w4 w 5 w_5 w5 |
---|---|
新颖 | 1 0 0 0 0 |
流行 | 0 0.5 0.5 0 0 |
权威 | 0 0 0 0.5 0.5 |
从 i = 0... k i=0...k i=0...k个路径 P i P_i Pi中选择max路径 P b P_b Pb的路径计算方法如下:
m a x i = 0... k S c o r e ( P i ) = m a x i = 0... k ∑ j = 1 n ( w j ∗ f j ( P i ) ) max_{i=0...k}Score(P_i) = max_{i=0...k}∑^n_{j=1}(w_j ∗ f_j(P_i)) maxi=0...kScore(Pi)=maxi=0...k∑j=1n(wj∗fj(Pi))
综合以上所有从建立知识图谱到输出最佳路径的步骤,框架图如下:
在线学习系统的设计
作者团队还额外设计了一个E-learning system,它由Graph database、Website backend和Website interface三部分组成,如下图:
- 图数据库:为了使网站能够访问数据,我们将知识图谱存储在一个图数据库中,可以方便地从网站后端进行操作。图数据库包含所有的学习对象和关系,在生成学习路径和搜索学习对象时调用
- 网站后端:负责构建功能,并将目标结果输出到网站界面。语义处理单元semantic processing unit从文本描述窗口接收到输入查询后,分析输入查询中的学习需求。然后,内核算法单元kernel algorithm unit返回可能的学习路径集P和推荐的学习路径Pb
- 网站界面:是学习者用来交互的窗口,由文本描述窗口和图形显示窗口组成。图形显示窗口将显示可能的学习路径集P,文本描述窗口将显示目标推荐学习路径和指导。
Evaluation
该学习路径推荐模型的目的是根据在线学习者的输入查询输出目标学习内容。输出学习内容的质量应由学习者进行评估。
因此,本实验采用外在评价方法对学习路径推荐模型进行评价:
- 基于多维知识图谱的学习路径生成算法是否比基于一维知识图的算法更好(搜索成功率更高,用户界面更友好)
- 在线学习者是否对推荐的学习路径感到满意,使用李克特量表来量化参与者的满意度,从5分到1分表示非常满意到非常不满意
下图是测试模型(基于多维知识图谱)和控制组(基于单维)的路径生成成功率对照图,#i代表上文提到的学习需求:
Summarization
该论文中提到的学习对象,拿机器学习领域举例,可以是解释清楚一个概念的教学视频(Bilibili的一个(或多p)视频),可以是发表该概念的一篇论文或会议,也可以是一本电子书。文中对于学习对象LO的界定只提到“基础信息+学习链接”,也就是说存在同一个学习对象有多个来源的可能性,这就加大了工作量,而且不能保证来源是否可靠。文中提到的学习对象的链接来源于人工智能+数学的教科书以及在线教育网站中,也是需要人工筛选的环节。好的质量才能构建出令学习者满意的知识图谱框架,这也是换到其他领域里需要下一番功夫、甚至难以复现的地方。