【强化学习】policy gradient的一些tips

Katniss的名字被占用

已于 2022-06-26 21:23:39 修改

阅读量259

点赞数 1

分类专栏：强化学习文章标签：人工智能

于 2022-06-25 16:50:09 首次发布

本文链接：https://blog.csdn.net/qq_42251120/article/details/125459943

版权

强化学习专栏收录该内容

6 篇文章 1 订阅

订阅专栏

本文探讨了强化学习中的两个关键技巧：添加基线和适当地分配奖励。基线策略通过减去轨迹奖励的期望值，使得更新过程中奖励既有正有负，避免了不必要的概率上升。适合的奖励分配强调了对每个状态-动作对给予不同的权重，通过仅考虑动作执行后的即时奖励或折扣未来奖励，更公平地评估每个动作的贡献。优势函数（Advantage Function）衡量了相对于其他动作的优势，通常由批评网络估算得出。

摘要由CSDN通过智能技术生成

Tip 1: Add a baseline

$\theta \leftarrow \theta+\eta\nabla\bar{R}_{\theta}\\ \nabla\bar{R}_{\theta} \approx \frac{1}{N}\sum ^{N}_{n=1}\sum^{T_n}_{t=1}(R(\tau^n)-b)\nabla logp_\theta (a^n_t|s_t^n)$

Why?

很多场景中奖励都是正的，在采样的时候不是所有的动作都能被采样到。采样到的动作，概率会上升，那么没有被采样到的动作概率就会下降。但未被采样的动作不一定是不好的动作，只是因为没有被采样到。

因此我们希望奖励不要永远都是正的。

How?

奖励减掉一项b，叫做baseline，即可让 $(R(\tau^n)-b)$ 有正有负。若此项为正，概率上升，此项为负，概率下降。
$\nabla\bar{R}_{\theta} \approx \frac{1}{N}\sum ^{N}_{n=1}\sum^{T_n}_{t=1}(R(\tau^n)-b)\nabla logp_\theta (a^n_t|s_t^n) \\ b\approx E[R(\tau)]$
b取轨迹奖励的期望，在训练的时候，不断记录 $R(\tau)$ 并计算平均值。这是其中一种做法，当然也有其他做法。

Tip 2: Assign Suitable Credit

Why？

$\nabla\bar{R}_{\theta} \approx \frac{1}{N}\sum ^{N}_{n=1}\sum^{T_n}_{t=1}(R(\tau^n)-b)\nabla logp_\theta (a^n_t|s_t^n)$
在式子中，一个episode的所有state-action对都使用同样的奖励项，这显然是不公平的。有些动作是好的，有些是不好的。即使整场游戏结果是好的，但并不代表每一个动作都是对的。若整场游戏结果是坏的，也不代表所有的动作都是错的。