非抢占式优先算法例题_优先经验回放 PRIORITIZED EXPERIENCE REPLAY

1. 介绍

在线RL智能体根据观察到的经验递增式地更新参数。在最简单的形式下,智能体会在更新后立刻丢弃数据。这里有两个问题:第一个是强相关性的数据打破了随机梯度算法所要求的i.i.d.假设;第二个是会丢弃将来可能有用的经验。

经验回放解决了这两个问题:经验储存在一个回放内存中,通过混合最近的经验来减少时间相关性,同时那些西游的经验会被重复更新。DQN就使用了经验回放来稳定值函数的训练。一般来说,经验回放可以有效减少学习所需的经验数量。

本文,作者提出了优先方法来使经验回放更加高效。核心思想是RL智能体可以从某些经验中更高效地学习。具体地,作者提出了更多地采样高期望值的经验,通过TD误差来衡量。这样的优先法会导致多样性的损失,作者采用随机优先化的方法来减少损失;还会引入误差,作者通过重要性采样来修正。

2. 背景

大量神经科学的研究表明优先经验是更多被重复的。与奖励有关的序列会被重复地更加频繁。高TD误差的经验也经常被重复。规划算法如值迭代可以通过适当顺序优先更新来提高效率。Prioritized sweeping根据值的改变来选择对哪个状态进行更新。TD误差则提供了一个方法来衡量这些性质。TD误差还可以觉得关注哪些资源,比如选择探索方向或特征。

在监督学习中,有很多技术可以解决不平衡数据集的问题,如重采样、下采样、过采样等,还可能与ensemble的方法结合。有研究将经验分为正负奖励两个buck进行固定比例地采样,这种方法只对可以分为正负经验地经验有效。有文章基于误差引入了非均匀采样,通过重要性采样来修正。

3. 优先回放

3.1 例子

为了理解优先化的潜在受益,作者引入了一个人为的实例环境”Blind Cliffwalk“,它的奖励是非常稀疏的。对于n个状态,环境需要指数级别的随机步来得到第一个非零奖励。

6ee11562677252020cb29a3b50eac1a7.png

作者使用这个例子来说明两个智能体的学习差异。两个智能体都采用Q-learning从相同的回放内存中更新。第一个智能体随机均匀采样,第二智能体使用一个数据结构优先采样。这个数据结构贪婪选取可以最大程度减小损失的数据。图1右体现了这种方法的加速效果。

3.2 TD误差优先化

优先回放的核心原则就是对每个状态转移重要性的衡量。一个理想的方式是智能体在当前状态所能学习的转移数量。当这种方法不可行时,我们就可以采用TD误差来代替。

为了阐述用TD误差衡量优先性的效果,作者对比了均与和基于数据结构的贪婪TD误差优先算法。算法将遇到的所有TD误差都储存在replay buffer中。有最大TD误差的转移被重复。参数根据TD误差的比例进行更新。新的转移无法计算TD误差,作者而将他们放在最优先的顺序来保证所有经验都至少被见过一次。图2左显示这个算法可以有效减少学习时间。

36c2a1921b3dad072e70a69d94e96440.png

3.3 随机优先化

贪婪TD误差优先化有以下几个问题。第一,为了避免昂贵的扫描成本,只有回放的经验才跟新TD误差。这样就导致TD误差一开始就小的状态很长时间不会被访问。第二,算法对噪声很敏感。第三,贪婪优先关注于经验的子集,这就导致了一开始TD误差高的转移会更频繁被重复,导致过拟合。

为了解决这些问题,作者引入了随机采样方法,结合纯贪婪优先化和均匀随机采样。作者保证在一个转移优先中采样的概率是单一的,对低优先值的转移概率也是非零的。具体的,转移i的采样概率为:

其中

确定使用多少优先性,当
为0时,就是均匀采样。

作者考虑的第一个情况就是比例优先化,其中

,epsilon是一个效地数字。防止未采样的状态误差为0。第二个方法时排序优先化,
,排位是根据TD误差的绝对值确定的。第二种方式更稳健,对异常值不敏感。这两种方法的结果如图2右所示。

实施:为了从分布中高效采样,复杂度不能依赖于N。对排序方法,我们可以用k个分段线性函数来拟合密度函数。分割点可以被预先计算(仅根据N和alpha改变)。在运行时,我们采样一个部分,然后在其中进行均匀采样。这个方法对小批次的算法很有效:选择k为批次量,然后从每个部分采样一个转移,这是一个分层采样的形式,可以平衡批次。比例方法则不同,它根据累加树的数据结构来实现。

3.4 偏差退火

优先回放引入了偏差,因为它改变了数据分布,改变了期望值。作者通过重要性采样的方法来修正权重:

当beta=1时,非均匀概率被完全弥补。通过使用

可以修正。为了稳定性,作者将权重标准化为

典型的RL常见情景中,更新的无偏差性在训练末期收敛时最重要。作者假设在这种情境下小的误差可以忽略。因此作者利用重要性采样退火,在训练终止时beta=1,实际中线性退火至1。beta与alpha具有交互效应,同时增加两个参数会增加优先性。

重要性采样在非线性拟合下还有一个优点:大的步长会导致梯度过于陡峭,因此一般会采用小的步长。在本方法中,优先性保证了高误差的情况被智能体见过很多次,重要性采样减少了梯度的数量级。

作者将该方法与doubleDQN结合,算法如下:

8786f0a9dbede35503a046d63dee601d.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1. 实验目的 调度的实质是操作系统按照某种预定的策略来分配资源。进程调度的目的是分配CPU资源。由于进程调度程序执行的频率很高,因此调度算法的好坏直接影响到操作系统的性能。本实验的目的是编程模拟实现几种常用的进程调度算法,通过对几组进程分别使用不同的调度算法,计算进程的平均周转时间和平均带权周转时间,比较各种算法的性能优劣。 2. 实验原理 [1]. 进程调度算法描述 进程调度算法包括先来先服务调度算法、最短作业时间优先抢占抢占)、最高响应比调度算法4种。(每个人必须做FCFS,然后在后面的三种中任选一种,即每个人必须做2种调度算法的模拟。) [2]. 衡量算法性能的参数 计算进程的平均周转时间和平均带权周转时间。 3. 实验内容 (1)编程实现本实验的程序,要求: [1]. 建立进程的进程控制块,进程控制块至少包括: a) 进程名称; b) 进程需要执行时间; c) 进入就绪队列时间; d) 进程执行开始时间 e) 进程执行结束时间 [2]. 编程实现调度算法。 [3]. 进程及相关信息的输入。这些信息可以直接从键盘上输入,也可以从文件读取。 [4]. 时间片与时间流逝的模拟。本实验需要对算法的执行计时,程序应该提供计算时间的方法。一种最简单的方法是使用键盘,比如每敲一次空格代表一个时间片的流逝。另一种方法是使用系统时钟。 [5]. 一组进程序列执行完毕,打印出结果信息。程序需要计算出每个进程的开始执行时间、结束时间、周转时间和带权周转时间,并为整个进程序列计算平均周转时间和平均带权周转时间。程序将计算结果按一定的格显示在计算机屏幕上或输出到文件中。打印出进程调度顺序图。 [6]. 实现数据在磁盘文件上的存取功能。 (2)对下列就绪进程序列分别使用上面的几种算法进行调度,计算每种算法下的平均周转时间和平均带权周转时间。 进程号 到达时间 要求执行时间 0 0 1 1 1 35 2 2 10 3 3 5 4 6 9 5 7 21 6 9 35 7 11 23 8 12 42 9 13 1 10 14 7 11 20 5 12 23 3 13 24 22 14 25 31

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值