强化学习笔记_6_价值学习高级技巧

最新推荐文章于 2024-07-10 22:11:08 发布

k_kun

最新推荐文章于 2024-07-10 22:11:08 发布

阅读量215

点赞数

分类专栏：强化学习文章标签：学习人工智能

本文链接：https://blog.csdn.net/k_kun/article/details/128506173

版权

8 篇文章 1 订阅

订阅专栏

Waste of Experience

transition $s_t,a_t,r_t,s_{t+1})$ ，称从开始到结束所有的transition为经验，原始算法中每次使用一个transition后丢弃。
Correlated Updates

原始算法中，相邻transition具有相关性，实验证明这种相关性不利于训练。

Basic Idea

不是所有transition都有相同的重要性。可以用TD error的值判断重要性，绝对值越大，说明网络越不熟悉该场景，其重要性越大。
Importance Sampling

使用非均匀抽样代替均匀抽样：
- Option 1：抽样概率 $p_t\propto|\delta_t|+\epsilon$ （ $\epsilon$ 避免概率为0）
- Option 2：抽样概率 $p_t\propto \frac{1}{rank(t)}$
  
  $r ank (t)$ 为 $\delta_t$ 的序号， $\delta_t$ 绝对值越大，序号就越小，抽样概率越大。
Scaling Learning Rate
- 非均匀抽样，不同transiton得到的概率不同，会导致DQN的预测有偏差，应相应调整学习率以抵消偏差。
- SGD： $w\leftarrow w-\alpha·w$
- 将学习率 $\alpha$ 乘以 $(n\cdot p_t)^{-\beta}$ ，超参数 $\beta\in(0,1)$ ，起初较小，逐渐增大到1
  
  对于均匀抽样， $p_1=p_2···=p_n=\frac{1}{n},n\cdotp_t=1$ ；
  
  对于非均匀抽样， $p_t$ 越大，学习率越小。
Update TD Error
- 为每一条transition计算TD error $\delta_t$
- 对新收集到还未使用的transition， $\delta_t$ 未知，将其赋最大值，即拥有最高的优先级
- 训练DQN的同时更新 $\delta_t$ ，权重也随之

在强化学习中，指用一个估算去更新同类的估算：“using an estimated value in the update step for the same knid of estimated value.”

TD算法中，使用一个transition更新参数 $w$ 。TD target中使用到了 $s_{t+1}$ ，说明为了更新DQN在 $t$ 时刻的估计，需使用到DQN在 $t + 1$ 时刻的预测。

TD算法导致DQN高估行动价值action-value，原因：
- Maximization：计算TD target时使用了最大化计算 $max_a Q(s_{t+1},a;w)$ ，导致高估
- Bootstrapping：用自己的估计更新自己，高估会一步步叠加（正反馈）
  
  计算TD target时使用到了 $q_{t+1}=\max_a Q(s_{t+1},a;w)$ ，并使用其更新 $Q(s_t,a_t;w)$ 。
  
  如果DQN高估行动价值，则 $Q(s_{t+1},a_t;w)$ 是高估的，maximization导致其进一步高估。
  
  更新参数，导致被更新参数高估 $Q(s_t,a_t;w)$ 。
Why is overestimation a shortcoming?

均匀高估不会影响决策，不均匀高估影响决策。由于每个二元组 $s_t,a_t)$ 在replay buffer中的概率不同，故高估的程度不同。
Solution：target network（解决bootstrapping），double DQN（解决maximization）

target network: $Q(s,a;w^-)$ ，与DQN网络 $Q (s, a; w)$ 结构相同，参数不同。

使用 $Q (s, a; w)$ 控制agent并收集经验transitions；

使用 $Q(s,a;w^-)$ 计算TD target， $y_t=r_t+\gamma·\max_a Q(s_{t+1},a;w^-)$ 。

使用一个transition对 $w$ 进行参数更新的过程：
- 观测得到transition $s_t,a_t,r_t,s_{t+1}$
- TD target: $y_t=r_t+\gamma·\max_a Q(s_{t+1},a;w^-)$
- TD error: $\delta_t=Q(s_t,a_t;w)-y_t$
- SGD: $w\leftarrow w-\alpha·\delta_t·\frac{\partial Q(s_t,a_t;w)}{\partial w}$
Periodically update $w^-$
- Option1: $w^-\leftarrow w$
- Option2: $w^-\leftarrow \tau\cdot w+(1-\tau\cdot w^-)$

由于使用了另一个网络计算TD error，使用target network可以一定程度减小bootstrapping导致DQN高估的程度，但依然无法解决maximization导致的高估。同时，由于target network的参数依赖于DQN网络，故bootstrapping依然存在。