MOOCs

一、introduction

  • 将MOOCs平台数据作为异构信息网络——为了捕获异构体之间复杂的关系
  • 提出基于注意力的图卷积网络——学习不不同实体的表征
  • 使用元路径作为导向——在GCN中的HIN中去获取异构上下文信息(传统的GCNs只能捕获在异构实体中的异构关系,而忽略了在异构关系中丰富的信息)
  • 提出注意力机制——考虑到了不同学生可能会有不同的兴趣,用该注意力机制来减轻在多个元路径中可适应地调整上下文
  • 扩展矩阵分解——对建模进行优化,得到最终的推荐列表

1. contribution

  1. 不只是考虑推荐中知识概念的问题,同时也考虑了知识概念context的问题,提供了一种更微观层次的推荐
  2. 为了将知识概念的context考虑在内,文章提出了一种新兴的end-to-end的框架 ACKRec利用丰富的异构上下文的辅助信息来协助利用知识概念推荐
  3. 为了捕获在moocs平台中 不同类型实体之间各式各样复杂的关系
  4. 文章设计了一种基于注意力机制的图卷积网络,可以将内容和异构上下文合并到不同实体的表征学习中。提出的这个模型可以在注意力方式的元路径的指导下,通过聚合用户的偏好来自动发现用户的潜在兴趣
  5. 通过真实的数据集进行了很多的实验研究去充分估提出模型的表现。研究了参数,其中包含元路径组合,表征维度,潜在因素的数量,GCNs的层数。证明模型结果是十分有效的

2.问题陈述和系统架构

问题定义
给定一个目标用户和相关的互动信息,目标是计算这个用户的兴趣分和一系列知识概念
推荐的结果:一个知识概念的top N列表。
正式化定义:
给定一个用户的交互数据,一个学习到的预测函数,知识概念k的推荐列表

二、系统架构

  1. 特征提取:通过使用从MOOC始终收集到的数据集,首先从知识概念的名字提取知识信息作为内容特征,然后分析在不同实体中各式各样的关系来描述知识概念。同样的,这里也给用户生成了概念特征和上下文特征。
  2. 元路径选择:在从数据中提取过特征之后,在这个模型中我们构建了一个结构的HIN给不同类型的实体之间的关系建模。然后从HIN中选择不同的元路径去描述知识概念的关联性。
  3. 异构实体的表征学习:在之前的过程,元路径已经构建好了,在此基础上,提出了一种以异构视角来学习实体的低维表征。这个模型可以捕获异构实体间结构的相关性。特别的,我们利用选择好的元路径去引导基于图神经网络的实体表征学习。之后利用注意力机制适应性的从不同元路径之间学习实体的表征。
  4. 评分预测:在生成用户和知识概念的低维表征之后,将实体的密集向量输入到一个扩展的矩阵分解中去学习模型的参数。此外,基于user-item(student-knoledge concept)评分矩阵我们预测预测用户在未点击的知识概念的兴趣。

三、METHOD

1.特征提取

1.1 内容特征

用Word2vector生成概念名字的word embedding。对于用户,也用相似的方式生成内容特征。
知识概念的名字就是知识概念的概括,其中包含了丰富的语义知识。因此这里生成知识概念的名字的word embedding,并且使用这个作为知识概念的内容特征

1.2 上下文特征

这里会有一些丰富的上下文信息,比如在网络结构中不同实体的关系。为了包含在不同类型的实体关系,这里将上下文信息建模成特征。特别的,在用户学习活动中,我们将考虑以下关系

  • R 1 u R^u_1 R1u :user-click-knowledge concept矩阵 A 1 u A^u_1 A1u , 在矩阵中的每个元素 c i , j ∈ { 0 , 1 } c_{i,j} \in{\{0,1\}} ci,j{0,1}表示用户 i i i 点击一个知识概念 j j j

  • R 2 u R^u_2 R2u :user-learn-course矩阵 A 2 u A^u_2 A2u,在矩阵中的每个元素 l i , j ∈ { 0 , 1 } l_{i,j} \in{\{0,1\}} li,j{0,1}表示用户 i i i 参加课程 j j j

  • R 3 u R^u_3 R3u :user-watch-video矩阵 A 3 u A^u_3 A3u,在矩阵中的每个元素 l i , j ∈ { 0 , 1 } l_{i,j} \in{\{0,1\}} li,j{0,1}表示用户 i i i 观看视频 j j j

  • R 4 u R^u_4 R4u :user-learn-course-taught by-teacher矩阵 A 4 u A^u_4 A4u,在矩阵中的每个元素 l i , j ∈ { 0 , 1 } l_{i,j} \in{\{0,1\}} li,j{0,1}表示用户 i i i 参加 j j j老师教授的课程 。
    以上生成了一些描述了一些在异构信息网络中相关用户的互动。对于知识层面来说,我们也发现了一些知识概念相关的关系,比如 knowledge concept-included by-videoknowledge concept-involved-course

2. 关系的元路径

为了以一个适当的规则给不同类型的实体及他们复杂的关系建模,这里首先阐明怎么利用异构信息网络去描述用户、知识概念和他们之间的相关异构关系。
Definition 1. HIN .这里将moocs的数据作为一个异构信息网络。这里构建了包含五个实体的HIN,User , Course , Video,Teacher , Knowledge concept 和他们之间的关系。在构建的HIN的基础上我们可以获得网络模式,他们的定义如下
Definition 2. Network schema. 网络模型如下图所示,全面地代表了在MOOCs数据集中的语义和关系信息。基于这个网络模型,我们可以发现在实体对之间的路径,即元路径。
在这里插入图片描述
Definition 3. 元路径

3.用于HIN表征学习的基于注意机制的图卷积网络

在获取内容特征和上下文特征后,将实体的内容特征输入到图卷积网路中去学习潜在的实体表征。给定异构信息网络 G G G=(V, ϵ \epsilon ϵ ),一组元路径 M P = MP= MP= { M P 1 , M P 2 , . . . , M P ∣ M P ∣ } \{ MP1,MP2,...,MP_{|MP|} \} {MP1,MP2,...,MPMP}和相关邻接矩阵 A = { A 1 , A 1 , . . . , A ∣ M P ∣ } A=\{A_1,A_1,...,A_{|MP|}\} A={A1,A1,...,AMP}。采用多层图卷积网络(GCN),其传播规则如下
h l + 1 = σ ( P h l W l ) h^{l+1} = \sigma(Ph^lW^l) hl+1=σ(PhlWl)

  • 此处为邻接矩阵 * 实体表征 * 在第l层的所有实体权重。
  • 为了简化,这里移去了所有图像相关符号的元路径下标,用户指标和知识概念指标。
  • 这里的 h l + 1 h^{l+1} hl+1代表实体的新表示

这里的内容或者上下文信息的传递过程可以看作是一个收敛到平稳分布的马尔克夫过程R(其中行i代表从知识概念 i i i扩散的可能性)证明了扩散过程的平稳分布具有一个闭型解。在考虑1-step截断时,传播层计算上下文当前表示的加权和,在这里插入图片描述
经过这三个传播层,学习到了每个元路径的表征。但是,每个元路径不应该被平等的考虑,为了解决这个问题我们利用注意力机制在不同元路径的引导下学习到的实体表征,并且生成注意联合表征。
学习了不同元路径的注意力权重 的 实体最终表征 为: e = ∑ i = 1 ∣ M P ∣ a t t ( e M P i ) e M P i e=\sum_{i=1}^{|MP|}att(e_{MP_i})e_{MP_i} e=i=1MPatt(eMPi)eMPi

  • 其中 a t t e n t i o n ( ⋅ ) attention(·) attention()代表注意函数, e e e表示实体的最终表征(这时已经聚合了不同元路径的表征权重)。
  • 因为在这个问题中,我们主要关注用户和知识概念。这里的目标实体就是用户或者知识概念。

给定对于每个元路径 M P i MP_i MPi给定一个相关的表征 e M P i e_{MP_i} eMPi,将
注意力权重定义如下
在这里插入图片描述

  • e M P i e_{MP_i} eMPi为目标元路径的一个实体表征
  • e M P j e_{MP_j} eMPj为其他元路径的表征
  • ”a“ 表示可训练的注意向量
  • σ \sigma σ” 表示非线性门函数

这种相关性用softmax函数进行归一化,这里注意联合表征可以表示为:
在这里插入图片描述

  • 这里的 α = ∑ i = 1 M P α M p i e M P i \alpha=\sum_{i=1}^{MP}\alpha_{Mp_i}e_{MP_i} α=i=1MPαMpieMPi e e e表示知识概念的最终表表征

元路径attention通过利用他们的相关性和学习实体的表征可以更好的帮助我们推断不同元路径的重要程度。算法过程如下所示在这里插入图片描述

4.矩阵分解用于知识概念推荐

基于注意的GCN用于表征学习,就可以获得知识概念的表征 e k e^k ek和用户表征 u k u^k uk.这里提出利用一个基于扩展的矩阵分解方法对用户进行知识概念推荐。我们将用户点击知识概念的次数作为评分矩阵,这个用户在知识概念上的评分矩阵定义为: r ^ u , k = x u ⊤ y k \widehat{r}_{u,k}=x^{\top}_uy_k r u,k=xuyk

  • 这里 x u ∈ R D × m x_u\in R^{D\times m} xuRD×m代表用户的潜在因子, y k ∈ R D × n y_k\in R^{D\times n} ykRD×n表示知识概念的潜在因子
  • D为潜在因子的个数
  • m和n分别为用户和知识概念实体的数量。

将得到的用户和知识概念的表征考虑进评分预测中:公式

  • 这里的 e u e^u eu e k e^k ek是用户和知识概念的表征
  • 引入可训练的参数 t u t^u tu t k t^k tk确保 e u e^u eu e k e^k ek在同一空间
  • β u \beta _u βu β u \beta _u βu是调优参数

为了可以实现最优的评分预测,MF的目标函数定义如下在这里插入图片描述
进一步在该式子中添加正则项,最终目标函数为:
在这里插入图片描述
在这里插入图片描述

  • λ 为 正 则 化 参 数 \lambda为正则化参数 λ
  • 这里利用随机梯度下降算法优化目标函数的局部最小值

四、实验

1. 数据集

  • 在训练过程中,将最后点击的知识概念作为优化目标,其余的作为过去的行为。对每一个正向案例,生成一个负案例来代替目标知识概念
  • 在测试过程中,我们将在测试集中已登记的每个知识概念作为目标知识概念,将训练集中同一个用户对应的知识概念作为点击知识确认的历史记录序列。
  • 为了估计推荐的性能,在测试集中的正向例子都会和99个随意取样的负例子配对。

2. 评估矩阵

通过计算不同的元路径组合得出不同的结果,经过对比当同时考虑三个元路径时结果最优

3.提出方法的细节分析

3.1 不同元路径组合的估计

在实验部分,我们分析了元路径的选择是怎么样影响ACKRec的性能,因为少量高质量的元路径可以带来客观的性能。这里同时考虑了简单的元路径和他们的组合。特别的我们选择四种元路径去描述一堆用户之间的关系

  • M P 1 MP1 MP1 U U U ⟶ \longrightarrow K K K ⟶ − 1 \stackrel{-1}{\longrightarrow} 1 U U U
  • M P 1 MP1 MP1 U U U ⟶ \longrightarrow C C C ⟶ − 1 \stackrel{-1}{\longrightarrow} 1 U U U
  • M P 1 MP1 MP1 U U U ⟶ \longrightarrow V V V ⟶ − 1 \stackrel{-1}{\longrightarrow} 1 U U U
  • M P 1 MP1 MP1 U U U ⟶ \longrightarrow C C C ⟶ \longrightarrow T T T ⟶ − 1 \stackrel{-1}{\longrightarrow} 1 C C C ⟶ − 1 \stackrel{-1}{\longrightarrow} 1 U U U

同样的,也选择的三种路径描述知识概念对之间的关系

  • K ⟷ K K \longleftrightarrow K KK
  • K K K ⟶ \longrightarrow U U U ⟶ − 1 \stackrel{-1}{\longrightarrow} 1 K K K
  • K K K ⟶ \longrightarrow C C C ⟶ − 1 \stackrel{-1}{\longrightarrow} 1 K K K

为了分析一小部分元路径之间不同组合的影响,我们利用这三种元路径对知识概念建模,并研究了与单个用户相关的元路径和他们的组合,结果如下:在这里插入图片描述
可以从图中看到,不同的简单元路径都有不同的性能,性能评分 M P 3 > M P 1 > M P 2 > M P 4 MP_3>MP_1>MP_2>MP_4 MP3>MP1>MP2>MP4,路径组合也有相同的趋势
在这里插入图片描述
在这里插入图片描述
可以发现,当包含更多的元路径的时候会有更好的性能,当包含所有元路径时具有最好的性能

3.2 模型参数估计

在基于矩阵分解的方法中,潜在因子的数量时非常重要的参数。因此,我们提出对不同数量的潜在因子的性能比较。这里将潜在因子的数量分别调为10、20、30、40,从下图可以发现,当潜在因子为30时性能最优。
在这里插入图片描述
接着,将隐式因子设为30,我们研究实体表征的维度设定。这里将表征的维度分别设置为20、50、100、150、200,从下图可以看出,当取100时,性能最优。因此,将用户和知识概念的表征设置成100维的向量。在这里插入图片描述
同样的,也检测了GCN的层数是如何影响模型的性能的。我们将层数分别设定为1、2、3、4.发现当GCN层数为3时表现的最好。在这里插入图片描述

4. Baseline Method

  • A C K R e c h ACKRec_h ACKRech:忽略了在异构信息网络中实体的异构型ACKRec的变体
  • A C K R e c c ACKRec_c ACKRecc:没有注意力机制方法变量的ACKRec变体
  • A C K R e c s ACKRec_s ACKRecs:模型的input只有内容特征
  • A C K R e c s ACKRec_s ACKRecs:模型的input只有上下文特征
  • A C K R e c s + r ACKRec_{s+r} ACKRecs+r:结合异构的上下文特征和实体的内容特征最大化利用在HIN中的实体

这里将ACKRec方法(proposed method)和其他ji其学习方法作比较。对于基于异构的额方法,我们选择最好的元路径的方法(考虑所有的节点)
在这里插入图片描述
如图可以看到,HIN based method由于所有其他的方法,这表明在MOOCs数据中异构的重要性,也可以看到同时包含内容特征和上下文特征的方法有最好的表现。该模型利用图卷积网络去学习表征,并且利用可适应性机制学习不同元路径的权重,能够更好的捕获数据中的异构性。
通过和 A C K R e c h ACKRec_h ACKRech对比,发现ACKRec能更好的捕获异构关系
通过和 A C K R e c c ACKRec_c ACKRecc对比,自适应的将表征学习融合到不同的元路径要比简单的连接效果更好,因为对不同的任务来说不同的元路径有不同的重要性。
通过 A C K R e c s ACKRec_s ACKRecs A C K R e c s ACKRec_s ACKRecs对比,不论是单独利用内容特征还是上写问特征都会丢失实体表征所需要的信息,不能全面描述用户特征和知识概念特征。
最后的方法 A C K R e c s + r ACKRec_{s+r} ACKRecs+r在HIIN上使用自适应权值和基于路径的方法,可以更全面有效的整合实体丰富的内容特征和不同类型实体之间的结构关系,并取得最佳的性能。

六、conculsion

在该工作中,我们调查了在MOOCs系统中经常被忽略的知识概念推荐问题。我们提出了ACKRec,一个端到端的图神经网络方法,可以自然地将丰富的异构上下文信息纳入知识概念推荐。为了更自然和直接的利用丰富的上下文信息,这里将MOOC是建模成一个异构信息网络。设计一个基于注意机制的图卷积网络,在元路径的引导下,通过注意的方式传播上下文信息来学习不同实体的表征。在提出的基于注意的图卷积网络的帮助下,用户潜在的兴趣可以有效地被探索和聚合。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值