论文笔记:When Waiting Is Not an Option:Learning Options with a Deliberation Cost AAAI 2018

0 abstract & introduction

The Option-Critic Architecture等一些论文中,已经说明可以自动学习option(什么时候终止,接下来进入哪个option),而不用提前指定。

但是,什么样的option是好的,这个概念还是比较模糊的。于是在这篇论文中,基于option-critic框架,通过改进终止策略,制定了有限理性框架中哪些option是好的。

之前的很多RL的model是基于MDP进行的。但是这种求最优策略的方式(或者说是一种假设吧,满足马尔可夫性质的假设)是没有考虑可能的资源约束的,也就是说,求出这种最优可能会需要很多数据或者很多的计算时间。

同时,即使使用option,最优策略是通过原始动作实现的。 因此,很难从理论上说明option划分到何等精确程度是有用的。

这篇论文使用有限理性(bounded rationality)。它的目标是在计算时间方面受到限制的智能体。

通过这样的视角,在构建option的时候,可以得到更精准的目标和标准。

在这篇论文中,好的option是哪些可以让智能体学习和做决策更快的option

1  转换成本模型 Deliberation Cost Model

        引入option的作用,可以看成把各个最底层agent的信息压缩到一个更简单的形式中,在高层决策中,我们只考虑option的'id',而不是它的细节(细节就是这个option中有哪些agent)

       这篇文章的作者认为, 更“长”的option,是一个比较好的选择

       论文假定在一个option内部执行是不需要任何开销的,如果切换到另一个option的时候,需要开销η。

        同时假设K是一个option继续的可能性,γ是折扣因子。那么这个option的期望长度是d=\frac{1}{1-\gamma K} 

        (以下是我的推导:d=1+\gamma \cdot K+\gamma^2 \cdot K^2+ \cdots +\gamma^n \cdot K^n+\cdots=\frac{1}{1-\gamma K},一个option越长,它所需要的折扣因子越大,同时继续这个option的可能性也越低)

        记option之间的切换是一个固定的开销η,那么每一步的平均开销是\frac{\eta}{d}=(1-\gamma K)\eta

        不难发现,当一个人option可能的概率K增大时,option变长,相应地平均开销降低。

        相反地,如果每一个option只有一步(也就是不考虑option,一个一个action直接进行决策),那么此时K=0,平均开销为η。

        ——>更长的option,更少的开销,更好的选择

2 公式化终止函数

将状态和option的组合(s,o)表示成一个增广状态z。那么有状态价值函数\tilde{V_\theta}(z)=Q_\theta(s,o)

与此同时,定义一个单步开销函数\tilde{c}(z,a,z')=c(s,o,a,s',o'),以及累计开销函数\tilde{D}_\theta(z)=D_\theta(s,o)

 于是,首先,目标函数可以看成是带约束的优化问题

这里α是初始的(s,o)概率分布(即 \sum_{s,o}\alpha(s,o)=E_{s,o}

 由于这是一个线性规划问题,所以可以进一步写成拉格朗日乘子的形式

数学知识笔记:拉格朗日乘子_UQI-LIUWJ的博客-CSDN博客

这里η是正则项系数  

在论文的‘computational horizon’一节中,作者认为Q和D的折扣因子可以不同

 这样两个折扣因子可以分别独立地截断奖励和option 开销的持续长度。

【奖励r可以看作是和外界环境的交互、option开销可以看成是agent 内部环境的感知因素】

进一步,我们可以把整个右边看成是单步MDP,其奖励是基本MDP的奖励Q,减去单步option的开销c

 于是这个“新MDP”的增广状态价值函数\tilde{V}_\theta^c(z)=Q_\theta^c(s,o)可以写成

 (TD形式,单步奖励+后续 增广状态的价值函数)

 所以DQN选择option的 标准(Q-value)是

3 整体算法

w 我不太清楚是什么,论文里也没有提,还请各位赐教!【个人觉得是,上层策略是对于option的DQN,这个w是上层-option-DQN的参数】

同时 η这里应该是负数吧?也不太确定,还请各位赐教!

然后伪代码这里没有说明,应该是每一个option一个策略函数和一个终止函数

 

 4 实验

论文通过玩一个Atari的游戏验证了option终止函数的有效性。这个游戏的目的是经过越多的格子越好,但同时不能碰到怪物。

 如果没有终止函数的话,最终学到的option是每一步都需要终止(图a)

引入终止函数之后,学到的option是一个很连续的action组合了(图b),只有在特定的交叉口,才有可能改变option

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UQI-LIUWJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值