【论文翻译&笔记】Hierarchical Reinforcement Learning for Course Recommendation in MOOCs

最新推荐文章于 2023-03-08 23:53:24 发布

上杉绘梨衣LC

最新推荐文章于 2023-03-08 23:53:24 发布

阅读量720

点赞数

Hierarchical Reinforcement Learning for Course Recommendation in MOOCs

亮点:先对数据进行分析

关键的挑战是如何在没有直接监督的情况下确定哪些历史课程是噪音，即识别影响推荐效果的课程。

基于注意力机制推荐文章的改进强化学习方法

摘要：

大规模网络开放课程(MOOCs)的普及，需要一种有效的个性化课程推荐方式。

最近的基于注意的推荐模型在推荐不同的目标课程时能够区分不同历史课程的效果。但是，当用户对许多不同的课程有兴趣时，由于贡献课程的效果被不同的历史课程冲淡，注意力机制就会表现不佳。

为了解决这一挑战，我们提出了一种分层强化学习算法来修改用户配置文件，并在修改后的配置文件上调整课程推荐模型。

我们系统地在一个包含1302门课程、82535名用户和458454名用户注册行为的真实数据集上对所提出的模型进行了评估，该数据集收集自“学堂在线”——中国最大的mooc之一。实验结果表明，该模型的推荐效果明显优于目前最先进的推荐模型(在HR@10方面提高了5.02%至18.95%)。

引言

问题定义： The problem can be simply formalized as given a set of historical courses that were enrolled by a user before time t, we aim at recommending the most relevant courses that will be enrolled by the user at time t + 1.

用户在t时刻前观看过一系列历史记录课程，为用户推荐第t+1时刻最相关的课程。

view the historical enrolled courses as a user’s profile,

and the key factor of recommendation is to accurately characterize and model the user’s preference from her profile.

课程注册历史作为用户资料，而推荐的关键因素是从用户的个人资料中准确地描述和建模用户的偏好。

前人的方法：

factored item similarity model(FISM) (Kabbur, Ning, and Karypis 2013) 把每个课程表征为embedding vector然后计算所有历史课程的平均的embeddings作为用户的偏好。

GRU model 捕获课程之间的顺序我们可以将历史课程的时间序列输入到门选循环单元 gated recurrent unit(GRU)模型(Hidasi et al. 2016)，并输出最后一个嵌入向量作为用户偏好。

attention-based model: neural attentive item similarity (NAIS) (He et al. 2018) and neural attentive session-based recommendation (NASR) (Li et al. 2017)

注意力模型存在的挑战：

首先，当用户选择不同的课程时，真正反映用户对目标课程兴趣的课程效果会被许多不相干的课程所稀释。

每门历史课程的顶端的分数代表了计算出来的注意力系数。

真正的目标课程“大数据系统”在排名前10的课程中没有被成功推荐。虽然“数据结构”、“操作系统”、“编程基础”等历史课程的贡献专业都被赋予了较高的注意系数，但心理学、物理、数学等许多其他类别的课程都把历史课程的注意力集中在一起，对它们的作用打折扣。

其次，即使没有历史课程能够预测随机目标课程，每门历史课程仍然会被硬性分配一个注意系数，这可能会导致随机目标课程排名在真实目标课程之前，如图1中的随机课程“财务管理”所示。

综上所述，历史噪声课程的贡献很小甚至没有贡献，即使分配小的注意系数，也会对预测结果产生明显的干扰。

为了解决上述问题，我们建议通过去除有噪声的课程来修改用户资料，而不是为每个课程分配一个注意系数。

关键的挑战是，我们没有明确的/监督的信息，告诉我们历史中的哪些路线是噪音，应该被移除。

我们提出了一种层次强化学习算法来解决这个问题。

具体来说，我们将用户资料的修改形式化为一个层次序列决策过程。

在数据集和预训练的基本推荐模型组成的环境反馈的监督下，执行一个高级任务和一个低级任务来删除有噪声的球场。本质上，profile reviser和基本推荐模型是共同训练的。

我们的贡献包括：

We propose a novel model for course recommendation in MOOCs, which consists of a profile reviser and a basic recommendation model. With joint training of the two models, we can effectively remove the noisy courses in user profiles.

• We propose a hierarchical reinforcement learning algorithm to revise the user profiles, which enables the model to remove the noise courses without explicit annotations.

• We collect a dataset, consisting of 1,302 courses, 82,535 users and 458,454 user enrolled behaviors, from XuetangX, one of the largest MOOCs in China, to evaluate the proposed model. Experimental results show that the proposed model significantly outperforms the stateof-the-art baselines (improving 5.02% to 18.95% in terms of HR@10)

数据：MOOC data （对数据的分析是重点）

http://www.xuetangx.com

我们收集的数据来自中国最大的mooc平台之一“学堂在线”。我们将“数据结构(2017)”、“数据结构(2018)”等不同年份开设的相同课程统一为一门课程，只选择2016年10月1日至2018年3月31日至少注册了三门课程的用户。得到的数据集包括1,302个课程，属于23个类别，82,535个用户和458,454个用户课程对。我们还收集了用户观看的课程中每个视频的时长。在训练模型之前，我们进行了一系列的分析，以调查我们为什么需要修改用户配置文件。

基本推荐模型 NAIS

问题转化为如何获得结合的embedding qu

一种方法是讲所有历史课程的embedding取平均值。平等对待所有课程的贡献可能会影响用户对目标课程的真实兴趣的表示。

引入注意力机制为每个历史课程估计一个注意力系数

使用强化学习方法去除历史中的噪声课程。（去噪。。不知道人家怎么想到的，感觉很神奇）

关键的挑战是如何在没有直接监督的情况下确定哪些历史课程是噪音，即识别影响推荐效果的课程。

具体来说，我们将用户资料的修改过程形式化为一个由智能体进行的分层顺序决策过程。

遵循一个修改策略，执行一个高级任务和一个低级任务来修改资料。

在修改了用户的整个资料之后，代理从环境中获得一个延迟的奖励，根据这个奖励更新其策略。

可以将环境视为数据集和前一节介绍的预训练的基本推荐模型。

策略更新后，根据代理修改的资料重新训练基本推荐模型。

本质上，profile reviser和推荐模型是共同训练的。

图3说明了所提议的模型的框架。

high-level task 决定是否修改资料

low-level task 删除哪些课程是否删除课程etu

部分用户资料有区分性可以使用基本方法准确预测

上杉绘梨衣LC

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【论文翻译&笔记】Hierarchical Reinforcement Learning for Course Recommendation in MOOCs

Hierarchical Reinforcement Learning for Course Recommendation in MOOCs亮点:先对数据进行分析关键的挑战是如何在没有直接监督的情况下确定哪些历史课程是噪音，即识别影响推荐效果的课程。基于注意力机制推荐文章的改进强化学习方法摘要：大规模网络开放课程(MOOCs)的普及，需要一种有效的个性化课程推荐方式。最近的基于注意的推荐模型在推荐不同的目标课程时能够区分不同历史课程的效果。但是，当用户对许多不同的课程..
复制链接

扫一扫