强化学习douzero模型伪代码

最新推荐文章于 2022-08-26 00:29:31 发布

Mystery_zero

最新推荐文章于 2022-08-26 00:29:31 发布

阅读量1.2k

点赞数

分类专栏：强化学习文章标签：人工智能

本文链接：https://blog.csdn.net/anny0001/article/details/125364130

版权

10 篇文章 0 订阅

订阅专栏

伪代码

在这里插入图片描述

Input: 对于每一次entry,共享buffer $B_L, B_U, B_D$ 有B个entries,size为 $S$ ,探索超参数为 $\epsilon$ ,折扣为 $\gamma$
初始化本地Q-networks $Q_L,Q_U,Q_D$ ,本地buffers $D_L,D_U,D_D$
for 迭代=1,2,…,T do
- 用learner过程异步化 $Q_L,Q_U,Q_D$
- for t = 1,2,…,T do #生成一个回合
  - Q $\leftarrow$ 基于一个位置, $Q_L,Q_U,Q_D$ 其中的一个
  - $a_t \leftarrow \begin{cases}argmax_aQ(s_t,a), with\ prob (1-\epsilon)\\随机动作, with\ prob\ \epsilon \end{cases}$
  - 执行 $a_t$ ,观察到 $s_{t+1}$ 和奖励 $r_t$
  - 存 ${s_t,a_t,r_t \}$ 进相应的 $D_L,D_U,D_D$
- end for
- for t=T-1,T-2,…,1 do #获得累计奖励
  - $r_t \leftarrow r_t+\gamma r_{t+1}$ 然后更新 $D_L,D_U,D_D$ 中的 $r_t$
- end for
- for $p\in \{L,U,D \}$ do #多线程优化
  - if $D_p.length \ge L$ then
    - 请求并等待 $B_p$ 的一个空entry
    - 从 $D_p$ 中移动大小为 $L$ 的 ${s_t,a_t,r_t\}$ 到 $B_p$
  - end if
- end for
end for

Input: 对于每一次entry,共享buffer $B_L, B_U, B_D$ 有B个entries,size为 $S$ , batch size $M$ ,学习率为 $\psi$
初始化全局Q-networks $Q^g_L,Q^g_U,Q^g_D$
for 迭代=1,2,… 知道收敛 do
- for $p\in \{L,U,D \}$ do #多线程优化
  - if $B_p$ 中的full entries的数目 $\ge M$ then
    - 从 $B_p$ 中抽样一个 $M\times S实例\{s_t,a_t,r_t\}$ 的一个batch然后释放entris
    - 用MSE loss和学习率 $\psi$ 更新 $Q^g_p$
  - end if
- end for
end for