【学习笔记】强化学习 Gradient Bandit Algorithm

aJay99

于 2022-12-31 20:45:56 发布

阅读量387

点赞数 2

文章标签：学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aJay99/article/details/128502826

版权

本文介绍了强化学习中的梯度Bandit算法，它使用随机梯度上升策略更新动作的偏好。算法通过比较奖励与基准，动态调整每个动作的选择概率。文中还证明了该算法在期望层面上与梯度提升一致，且讨论了基线选择对收敛速度的影响。

摘要由CSDN通过智能技术生成

Reference：

Reinforcement Learning: An Introduction 2nd Edition

Gradient Bandit Algorithm

在第二章中，我们讨论了估计action values的方法，并用这样的估计来选择动作。这是一个很好但并不唯一的方法。下面我们考虑对每个动作学习一个数值的偏好(preference)，记作 $H_t(a) \in \mathbb{R}$ 。preference的值越大，对应的动作越容易被选择到，但preference并不能用其所获得的奖励来解释。只有一个动作对于另一个动作的相对preference是重要的：对所有动作的preference加1000不会改变每个动作被选中的概率，这样的性质是由soft-max分布(Gibbs或Bolzmann分布)决定的：

$\text{Pr}(A_t = a) = \frac{e^{H_t(a)}}{\sum_{b=1}^k e^{H_t(b)}} = \pi_t(a)$

这里我们用 $\pi_t(a)$ 表示动作 $a$ 在 $t$ 时刻被选中的概率。每个动作初始的preference均相同(e.g., $H_1(a) = 0$ , for all $a$ )，这样每个动作被选中的概率也相同。

这里有一个基于随机梯度提升(stochastic gradient ascent)思想的学习算法。在每一步选择动作 $A_t$ 并获得奖励 $R_t$ 后，每个动作的preference通过下面的公式更新：

$H_{t+1} (A_t) = H_t(A_t) + \alpha (R_t - \bar{R}_t) (1 - \pi_t(A_t))\text{, and}$ （2.12）

$H_{t+1} (a) = H_t(a) - \alpha (R_t - \bar{R}_t)\pi_t(a) \text{, for all } a \neq A_t$

这里

最低0.47元/天解锁文章

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【学习笔记】强化学习 Gradient Bandit Algorithm

本文对gradient bandit algorithm做了简单的介绍和推导，并证明了它与随机梯度提升方法的等价性
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。