根据学习曲线斜率的绝对值自动课程学习:Teacher–Student Curriculum Learning

本文提出了一种名为教师-学生课程学习(TSCL)的框架,旨在解决深度强化学习中复杂任务的训练难题。TSCL通过教师算法根据学生在各个任务上的学习进度(学习曲线斜率)自动选择训练任务,以促进学生模型的进步。教师不仅选择进步最快的任务,还会关注学生在某些任务上表现下降的情况,以防止遗忘。在十进制数字加法和Minecraft导航任务的实验中,TSCL的表现与手工制作的课程相当甚至更好,证明了其有效性和自动课程设计的能力。
摘要由CSDN通过智能技术生成

在这里插入图片描述

在这里插入图片描述

Abstract

我们提出了教师-学生课程学习(TSCL),这是一个自动课程学习的框架,在这个框架中,学生尝试学习一项复杂的任务,然后教师自动从给定的任务集中选择子任务让学生进行训练。描述一个教师算法家族,这些算法依赖于直觉,即学生应该多练习那些进步最快的任务,即学习曲线斜率最高的地方。此外,教师算法通过选择学生表现变差的任务来解决遗忘问题。展示了TSCL在两个任务上匹配或超过了精心手工制作的课程的结果:具有长短期记忆(LSTM)的十进制数字加法和Minecraft中的导航。自动设定的次序迷宫课程能够解决一个在直接训练时根本无法解决的《我的世界》迷宫,而且学习速度比对这些次迷宫进行统一采样要快一个数量级。
Index Terms:ctive learning, curriculum learning, deep reinforcement learning, learning progress.

I. INTRODUCTION

深度强化学习算法被用于解决视频游戏[1]、运动[2]、[3]、机器人[4]中的困难任务。然而,像“机器人,在会议室里把椅子布置成一个圆圈”这样奖励稀疏的任务,仍然很难直接应用这些算法来解决。其主要原因是实现奖励的时间步数太多,这对学分分配(哪一项行动有助于获得奖励)和探索(下一步将采取哪些行动)都是挑战。例如,我们知道解决一个随机探索任务所需的样本数量会随着获得奖励的步骤数量呈指数增长[5]。克服这个问题的一种方法是使用课程学习[6]–[9],在这个课程中,课程的难度是递增的,只有在掌握了较容易的任务后,才对较难的任务进行训练。课程学习有助于在掌握一项简单任务后,通过本地探索发现更困难任务的策略。
要使用课程学习,研究者必须:

  1. 能够按难度对子任务进行排序。
  2. 确定掌握门槛。这可以基于达到一定的分数[7]、[9],这需要对每个任务的可接受性能的先验知识。或者,这可能是基于性能的平稳期,由于学习曲线中的噪声,很难检测到这种平稳期。
  3. 不断地把较容易的任务混在一起,同时学习更难的任务,以避免遗忘。设计这些混合物是[7]的一大挑战。

在本文中,我们介绍了一种新的方法——教师-学生-课程学习(TSCL)。这个学生是被训练的模型。教师监控学生的训练进度,并在每个训练步骤中确定学生应完成的训练任务,以使学生在课程中取得最大的进步。学生可以是任意的机器学习模型。教师在给学生布置任务的同时也在了解学生,这都是一个单一训练流程的一部分。
我们描述了几种基于学习进度[10]概念的教师算法。
其主要思想是学生应该练习更多进步最快的任务,即学习曲线斜率最高。为了防止遗忘,学生也应该练习那些表现越来越差的任务,比如,学习曲线斜率为负时。
本文的主要贡献如下。

  1. 我们将TSCL,一个教师-学生的课堂学习框架形式化为部分可观察的马尔可夫决策过程(POMDP)[11]。
  2. 我们提出了一系列基于学习进度概念的算法。该算法还解决了忘记先前任务的问题。
  3. 我们评估了监督式和强化式学习任务的算法:具有长短期记忆(LSTM)的十进制数字加法和Minecraft中的导航。

II. TEACHER–STUDENT SETUP

图1展示了师生互动。在每一个时间步,老师为学生选择练习的任务。
在这里插入图片描述
学生在这些任务上进行训练,然后返回一个分数。老师的目标是让学生用尽可能少的训练步骤完成最后一项任务。
在这里插入图片描述
例如,分数可以是强化学习中的整体奖励或监督学习中的验证集准确性。
我们将教师帮助学生学习最终任务的目标正式化为解决POMDP[11]。POMDP将Markov决策过程(MDP)[12]扩展到整个系统状态不可见的情况下,必须根据系统状态的局部视图(观察)做出决策。
我们提出了两种POMDP的范式:

  1. 简单,最适合强化学习;
  2. 批量,最适合监督学习。

A. Simple POMDP Formulation

简单的POMDP范式暴露学生在单一任务上的分数,非常适合于强化学习问题。

  1. 状态 s t s_{t} st 表示学生的整个状态(即。例如,神经网络参数和优化器状态),对教师来说是不可观察的。
  2. 动作对应于老师选择的任务参数。在下面,我们只考虑离散任务参数化,即教师从 n n n 个子任务中选择一个。采取行动意味着对学生进行一定次数的迭代训练。
  3. 观察状态 o t o_{t} ot 是学生们在时间步 t t t 上训练的任务 a a a 的分数 x t a t x^{a_{t}}_{t} xtat 比如这一段的总奖励。虽然在理论上,老师也可以观察学生状态的其他方面,比如网络权重,但为了简单起见,我们选择只暴露分数。
  4. 奖励 r t r_{t} rt 是学生在时间步 t t t 上训练的任务的分数变化 r t = x t a t − x t i ′ a t r_{t} = x^{a_{t}}_{t} - x^{a_{t}}_{t_{i}'} rt=x
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值