【deepRL】分层强化学习论文笔记(一)

什么是分层强化学习

解决稀疏奖励问题通常有两种思路:对动作进行分层,将low-level动作组成high-level元动作,这样搜索空间就会被降低。然而这种分层方法通常需要较多的领域知识,并且需要仔细地设计。第二种方式是利用内在激励来引导智能体探索,这种方式不需要领域知识,但是当面对一系列任务时,这类方法没有办法将关于某个任务的知识迁移到另外一个任务,每次解决新的任务时候都需要从头学起,大大增加了样本复杂度。

1.Strategic Attentive Writer for Learning Macro-Actionspdf

摘要 核心思想

这篇论文提出了一种新颖的深度循环神经网络体系结构,该体系结构通过与强化学习环境中的纯环境交互以端对端的方式学习构建隐式策略。
网络建立了一个内部策略,在观察到来自环境的下一个输入后会不断更新该内部策略,
还可以通过了解计划可以提交多长时间来将该内部表示划分为连续的子序列,即没有重新规划。结合这些特性,所提议的模型称为STRategic At-tentive Writer(STRAW),可以学习各种长度的高级,暂时性的抽象宏动作(macro-actions),这些动作仅从数据中学习而无需任何先验信息。

们通过实验证明了STRAW通过采用暂时扩展的计划性策略(例如Pacman女士和Frostbite),在几款ATARI游戏上都取得了重大进步。同时,它是可应用于任何序列数据的通用算法。为此,我们还表明,在接受文本预测任务训练时,STRRAW自然会预测频繁出现的n-gram(而不是宏动作),这证明了该方法的普遍性

方法

模型model 两个模块

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KltnJcIL-1599655887515)(1599622025267.png)]
STRAW是具有两个模块的深度递归神经网络。第一个模块将环境观察转换为行动计划,这是一个状态变量,表示未来行动的明确的随机计划。STRAW通过提交行动计划并遵循该行动计划来生成宏动作,而无需更新许多步骤。第二个模块保持 之前所提交的计划 其状态变量。该变量确定网络终止宏动作并更新动作计划的步骤。行动计划(action plan)是一个矩阵,其中一个维度对应于时间,另一个维度对应于一组可能的离散行动。该矩阵的元素与在相应时间步长采取相应动作的概率成比例。同样,承诺-计划代表了在特定步骤中终止宏观行动的可能性。类似地,承诺计划表示在特定步骤中终止宏观行动的可能性。为了更新两个计划,我们使用了专心的写作技术[10],该技术可使网络专注于计划的一部分,当前的观察可以提供所需的输出。本节正式定义了模型,我们将在本节的后面部分描述它的训练方式。
在这里插入图片描述

####神经网络的状态:
矩阵 A t A^t At是一个动作计划(动作集)每个元素 A a , τ t A_{a,\tau}^{ t} Aa,τt 都是一个在时间 t + τ t+\tau t+τ输出动作的概率的比例.A是在时间T内可能动作总数。
通过softmax函数把 A t A^t At的第一列转化为概率分布输出{
A t A^t At的内容对应于在时间构想的未来行动计划。单行矩阵表示网络的承诺计划。意味着他们将致力于。宏动作定义为一系列输出 { a } t t 2 − 1 \left \{ a \right \} _{t}^{t_2-1} {a}tt21,这是通过神经网络当 g t g_t gt开的时候,即为0时 所更新得到的

在承诺过程中,计划使用矩阵时移运算符ρ转到下一个步骤,通过移除第一列并在其后面附加填充零的列来移动矩阵,将p应用于 A t A^t At c t c^t ct反映了时间的增长。请注意,在承诺期间(第2步和第3步),网络不会计算前向通行证,从而节省了计算时间

Attentive planning

支持宏动作使用的一个重要假设是,一个观察可以揭示足够的信息以生成一系列动作。即使在一个环境中,这些频率的复杂性及其长度也会发生巨大变化.因此,网络必须专注于计划的一部分,其中当前的观察可以为所需的行动提供信息。为了实现这一目标,我们应用了可区分的,专注的读写操作[10],其中注意力在时间维度上定义。此技术最初是为生成图像而提出的,在此它用于更新plan的 A t A^t At c t c^t ct。在图像领域,注意力集中在图像的空间范围内,读取和写入像素值。在这里,它在计划的时间范围内运行,并用于读取和写入动作概率。注意力机制的可微性使得使用标准反向传播进行训练成为可能。

该计划应用了一系列高斯滤镜,产生了位置和缩放平滑变化的“补丁”。令A为可能采取的行动总数,并令K为决定补丁时间分辨率的参数。通过指定网格中心的坐标和相邻滤镜之间的步距,将一维K×A的一维高斯滤镜网格放置在平面上。

D = write ⁡ ( p , ψ t A ) ; β t = read ⁡ ( A t , ψ t A ) \mathbf{D}=\operatorname{write}\left(p, \psi_{t}^{A}\right) ; \quad \beta_{t}=\operatorname{read}\left(\mathbf{A}^{t}, \psi_{t}^{A}\right) D=write(p,ψtA);βt=read(At,ψtA)
写入操作接受一个补丁p∈RA×K和注意参数ψ。它产生与At大小相同的matrixD,其中包含根据ψ缩放和定位的补丁。类似地,读取操作将整个计划与注意参数ψAt一起使用,并输出一个读取补丁β∈RA×K,它是根据ψAt从At中提取的。我们将读者引向[10]以获取详细信息。

action-plan update

设观测值xt的特征表示形式(例如深度卷积网络的输出)。给定z和g,前一状态 A t − 1 A^{t-1} At1 STRAW使用算法1计算行动计划的更新。这里和f A是线性函数,是他的两层感知器。图2展示了对At的更新。

算法1
三

Commitment-plan update

现在,我们介​​绍一个模块,该模块通过定义在不进行重新计划的情况下可以遵循当前action-plan A t A^t At的时间范围,将行动计划划分为宏观行动。承诺计划与操作计划同时进行更新,即gt = 1时。否则由操作员p将其转到下一个时间步。与计划模块不同, A t A^t At会进行累加更新,而 c t c^t ct则使用以下方程式完全覆盖

g t ∼ c 1 t − 1 g_{t} \sim \mathbf{c}_{1}^{t-1} gtc1t1
if g t = 0 g_{t}=0 gt=0 then c t = ρ ( c t − 1 ) \mathbf{c}^{t}=\rho\left(\mathbf{c}^{t-1}\right) ct=ρ(ct1)
else ψ t c = f c ( [ ψ t A , ξ t ] ) \psi_{t}^{c}=f^{c}\left(\left[\psi_{t}^{A}, \xi_{t}\right]\right) ψtc=fc([ψtA,ξt])
c t = sigmoid ⁡ ( b + w r i t e ( e , ψ c ) ) \mathbf{c}_{t}=\operatorname{sigmoid}\left(\mathbf{b}+w r i t e\left(e, \psi^{c}\right)\right) ct=sigmoid(b+write(e,ψc))

这里使用了相同的细心写操作,但只有一个高斯滤波器用于注意覆盖。因此,补丁e只是标量,我们将其固定为较高的值(在我们的实验中为40)。选择此高值,以便注意参数可以确定保证进行重新计划时的时间步长。相同大小的向量对填充了共享的可学习的偏差b,定义了重新规划的概率早于ψc所隐含的步骤

请注意,gtis在算法1中用作乘法门。这允许在训练期间进行追溯功劳分配,因为在时间t +τ处来自写操作的梯度会直接流入承诺模块通过state, c t c^t ct。此外,当 g t = 0 g_t=0 gt=0时,仅调用计算便宜的运算符。因此,更多的投入可以大大节省计算量。

Structured exploration with macro-actions

Learning

计算loss
L = ∑ t T ( L o u t ( A t ) + 1 g t ⋅ α K L ( Q ( z t ∣ ϕ ( x t ) ) ∣ P ( z t ) ) + λ c t [ t ] ) \mathcal{L}=\sum_{t}^{T}\left(L^{o u t}\left(\mathbf{A}^{t}\right)+\mathbf{1}_{g_{t}} \cdot \alpha K L\left(Q\left(z_{t} \mid \phi\left(x_{t}\right)\right) \mid P\left(z_{t}\right)\right)+\lambda \mathbf{c}_{t}[t]\right) L=tT(Lout(At)+1gtαKL(Q(ztϕ(xt))P(zt))+λct[t])

其中,Lout是通过网络输出定义的特定于域的可微分损失函数。对于监督问题,例如文本中的下一个字符预测,Lout可以定义为正确输出的负对数似然。
这两个额外的术语是正则化。首先是通过噪声通道的通信成本,它被定义为潜在分布 Q ( z t ∣ ϕ ( x t ) ) Q\left(z_{t} \mid \phi\left(x_{t}\right)\right) Q(ztϕ(xt)) 和某些先验 P ( z t ) P{(z_t)} P(zt) 之间的KL散度。
由于潜在分布是高斯分布(第3.1节),因此先验的自然选择是平均值为零且标准偏差为1的高斯分布。最后一项对重新计划进行了惩罚,并鼓励了承诺

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值