【学习笔记】强化学习 Gradient Bandit Algorithm

本文介绍了强化学习中的梯度Bandit算法,它使用随机梯度上升策略更新动作的偏好。算法通过比较奖励与基准,动态调整每个动作的选择概率。文中还证明了该算法在期望层面上与梯度提升一致,且讨论了基线选择对收敛速度的影响。
摘要由CSDN通过智能技术生成

Reference:

Reinforcement Learning: An Introduction 2nd Edition

Gradient Bandit Algorithm

在第二章中,我们讨论了估计action values的方法,并用这样的估计来选择动作。这是一个很好但并不唯一的方法。下面我们考虑对每个动作学习一个数值的偏好(preference),记作H_t(a) \in \mathbb{R}preference的值越大,对应的动作越容易被选择到,但preference并不能用其所获得的奖励来解释。只有一个动作对于另一个动作的相对preference是重要的:对所有动作的preference加1000不会改变每个动作被选中的概率,这样的性质是由soft-max分布(Gibbs或Bolzmann分布)决定的:

\text{Pr}(A_t = a) = \frac{e^{H_t(a)}}{\sum_{b=1}^k e^{H_t(b)}} = \pi_t(a)

这里我们用\pi_t(a)表示动作at时刻被选中的概率。每个动作初始的preference均相同(e.g., H_1(a) = 0, for all a),这样每个动作被选中的概率也相同。

这里有一个基于随机梯度提升(stochastic gradient ascent)思想的学习算法。在每一步选择动作A_t并获得奖励R_t后,每个动作的preference通过下面的公式更新:

H_{t+1} (A_t) = H_t(A_t) + \alpha (R_t - \bar{R}_t) (1 - \pi_t(A_t))\text{, and}                   (2.12)

H_{t+1} (a) = H_t(a) - \alpha (R_t - \bar{R}_t)\pi_t(a) \text{, for all } a \neq A_t

这里

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值