ddpg/Continuous control with deep reinforcement learning

最新推荐文章于 2022-09-03 22:28:21 发布

KpLn_HJL

最新推荐文章于 2022-09-03 22:28:21 发布

阅读量354

点赞数

分类专栏：机器学习 # 强化学习文章标签：算法机器学习人工智能强化学习

本文链接：https://blog.csdn.net/sinat_41679123/article/details/122220325

版权

机器学习同时被 2 个专栏收录

32 篇文章 1 订阅

订阅专栏

强化学习

20 篇文章 0 订阅

订阅专栏

该博客探讨了一种解决连续动作空间强化学习的方法，通过结合DQN和Actor-Critic算法。它建立了两个网络，一个Actor网络用于选择动作，一个Critic网络用于价值评估。在更新过程中，使用Actor网络的梯度来改进策略，而不是直接更新策略网络。更新步骤包括从经验回放缓冲区采样，利用目标网络进行稳定训练，并逐步更新Actor和Critic网络的参数。

摘要由CSDN通过智能技术生成

总结

融合dqn buffer+actor/critic分别2个网络，连续的action（更新时不是 $\nabla_\theta\pi(a|s)$ 了，而是 $\nabla_\theta\mu(s)$ ， $\mu$ 是actor网络）、连续的states

细节

之前的方法action都是离散的，这里可以解决连续action的问题

在这里插入图片描述

对action和critic分别建了2个网络，actor网络 $\mu, \mu'$ ，critic网络 $Q, Q^{'}$ ，更新步骤为：

根据当前actor $\mu$ 及噪音 $\mathcal{N}_t$ 选动作： $a_t = \mu(s_t) + \mathcal{N}_t$
执行动作 $a_t$ 获得reward $r_t$ 以及新的state $s_{t+1}$
buffer
从buffer中sample N个trajectory
计算 $y_i = r_i + \gamma Q'(s_{i+1}, \mu'(s_{i+1}))$
更新critic网络： $\frac{1}{N}\sum_i(y_i - Q(s_i, a_i))^2$
更新actor网络： $\nabla_{\theta_\mu} \approx \frac{1}{N}\sum_i \nabla_aQ(s, a)\nabla_{\theta_\mu}\mu(s)$ ，作为对比，之前的policy gradient更新时是 $\nabla_{\theta_\mu} \approx \frac{1}{N}\sum_i \nabla_aQ(s, a)\nabla_{\theta}\pi(a|s)$
更新critic, actor的target网络：
$\theta^{Q'} \leftarrow \tau\theta^Q + (1 - \tau)\theta^{Q'} \\ \theta^{\mu'} \leftarrow \tau\theta^\mu + (1 - \tau)\theta^{\mu'} \\$

KpLn_HJL

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ddpg/Continuous control with deep reinforcement learning

16-iclr-DDPG/Continuous control with deep reinforcement learning
复制链接

扫一扫

专栏目录