【学习笔记】Lesson5-连续动作空间上求解RL（强化学习7日打卡营-世界冠军带你从零实践）

最新推荐文章于 2022-09-27 12:44:20 发布

Kevin-Pang

最新推荐文章于 2022-09-27 12:44:20 发布

阅读量410

点赞数

文章标签：强化学习机器学习

本文链接：https://blog.csdn.net/qq_41138197/article/details/106973290

版权

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fZNtWFaf-1593168474877)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson5/image-20200623170210439.png)]

tanh(x)用来限制输出的action范围在[-1,1]，最后需要根据实际情况缩放。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SlqeRAle-1593168474882)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson5/image-20200623170625652.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hcKvYptx-1593168474883)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson5/image-20200623171018012.png)]

DDPG除了需要学习Q网络，还需要学习策略网络。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bI8OSEzd-1593168474884)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson5/image-20200623171727725.png)]

策略网络——Actor
目标网络——Critic

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7Bts0Xg3-1593168474885)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson5/image-20200623171452009.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-msm84gzW-1593168474886)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson5/image-20200623172033176.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OSOd0GXy-1593168474887)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson5/image-20200623172535801.png)]

import paddle.fluid as fluid
import parl
from parl import layers


class

关注