Reinforcement Learning - An Introduction强化学习读书笔记 Ch2.5-Ch2.8

2.5 跟踪一个非平稳问题

根据收益的概率分布是否随时间变化,可以将赌博机问题分成平稳和非平稳的两种方法,之前讨论的平均样本方法是对平稳方法合适的,而在非平稳问题中,收益的概率分布是随时间变化的,因此赋予更近的收益更高的权重是一种合理的处理方式。
使用固定步长可以使得Qn+1成为对过去所有收益的加权平均,而赋予给收益Ri的权重依赖于它被观察到的时刻和当前时刻的差n-i,而1-∂是小于1的,因此随着时间的后移,之前的收益的权重会越来越低,并且是指数级别的递减。
在这里插入图片描述
除了固定步长之外,随着时刻改变步长也是可行的,当采用1/n的步长时,会得到采样平均法,大数定律可以保证其收敛性,而随机逼近理论中给出了一定能收敛的步长条件:
在这里插入图片描述
这样可以保证步长足够大且最终会变小。

2.6 乐观初始值

目前为止的方法都依赖于对初始值Q1(a)的选择,从统计学角度来说,这种选择的引入是有偏的。
对于采样平均法而言,当所有动作都至少被选择一次时偏差就会消失,而对于步长为常数的方法而言,这种偏差会随时间减少,但是不会消失。
选择初始值的好处是通过它们可以简单的设置关于预期收益水平的先验知识,缺点是如果不全部设置成0那么就变成了必须指定的超参。
并且在选择初始值的时候提供了一种简单的试探方法——乐观初始值法,例如在赌博机问题中,本身的q*(a)是按照均值为0方差为1的正态分布选择的,因此+5这样的初始值是一个过度乐观的初始值,但是这种乐观的初始值会鼓励动作-价值方法去试探,因为无论哪一个动作被选择,其能得到的最大收益也只是+1,也是比初始值小的,因此agent会感到失望,从而转向另外一个动作,其结果就是,在所有动作的估计值收敛之前都被试探了很多次,即使每一步都按照贪心法选择,整个系统也会进行多次的试探。
在具体实现中,乐观初始值方法在刚开始会表现得比较糟糕,因为其需要试探很多次,但是随着时间的推移,试探的次数变少,它的表现也会更好,这样的技巧在平稳问题中非常有效,但这种很关注初始条件的方法不适合非平稳问题,因为其试探的驱动力只是暂时的,如果任务发生了变化,对试探的需求可能就变了,则这种方法就无法提供帮助。

2.7 基于置信度上界的动作选择

在选择非贪心动作的时候,我们最好是根据它们的潜力来选择事实上更可能是最优动作的动作,这就要考虑到非贪心动作的估计有多接近最大值,以及这些估计的不确定性。
在这里插入图片描述
在公式中,Nt(a)表示在时刻t之前动作a被选择的次数,公式中的平方根项是对a动作值的不确定性的度量,最大值的大小是动作a的可能真实值的上限,而参数c决定了置信水平。
每次选择动作a时,由于Nt(a)出现在不确定项的分母上,因此不确定性会减小;而选择a之外的动作的时候,在分子上的t增大而Nt(a)没有变化,那么不确定性就会增加。
这个方法在性能上往往表现良好,但是这个方法很难推广到更一般的强化学习问题,因为在处理非平稳问题时该方法更复杂并且需要更大的状态空间。

2.8 梯度赌博机算法

该节中,针对每一个动作a,考虑一个跟收益没有关系的偏好函数Ht(a),偏好函数越大,动作就被越频繁的选择,并且对动作偏好进行softmax处理:
在这里插入图片描述
πt(a)用来表示动作a在时刻t时被选择的概率,且所有动作的偏好函数的初始值是一样的。
基于梯度上升的思想,在每个步骤中,在选择动作At并获得收益Rt之后,偏好函数将按照如下方式更新:
在这里插入图片描述

收益基准的引入,可以让赌博机算法马上适应新的收益水平。

接下来将用数学证明上述的偏好更新算法,事实上是一种梯度上升的随机近似。(下图是手写的一个推导)
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值