深度强化学习实战：Tensorflow实现DDPG - PaperWeekly 第48期

最新推荐文章于 2024-06-21 16:07:05 发布

PaperWeekly

最新推荐文章于 2024-06-21 16:07:05 发布

阅读量4.2k

点赞数 1

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/78141116

版权

作者丨李国豪

学校丨中国科学院大学&上海科技大学

研究方向丨无人驾驶，强化学习

指导老师丨林宝军教授

1. 前言

本文主要讲解 DeepMind 发布在 ICLR 2016 的文章 Continuous control with deep reinforcement learning，时间稍微有点久远，但因为算法经典，还是值得去实现。

2. 环境

这次实验环境是 Openai Gym 的 Pendulum-v0，state 是 3 维连续的表示杆的位置方向信息，action 是 1 维的连续动作，大小是 -2.0 到 2.0，表示对杆施加的力和方向。目标是让杆保持直立，所以 reward 在杆保持直立不动的时候最大。笔者所用的环境为：

Tensorflow (1.2.1)
gym (0.9.2)

请先安装 Tensorflow 和 gym，Tensorflow 和 gym 的安装就不赘述了，下面是网络收敛后的结果。

class="video_iframe" data-vidtype="2" allowfullscreen="" frameborder="0" data-ratio="1" data-w="272" data-src="http://v.qq.com/iframe/player.html?vid=y1325jlix3j&width=650&height=487.5&auto=0" style="display: block; width: 650px !important; height: 487.5px !important;" width="650" height="487.5" data-vh="487.5" data-vw="650" src="http://v.qq.com/iframe/player.html?vid=y1325jlix3j&width=650&height=487.5&auto=0"/>

3. 代码详解

最低0.47元/天解锁文章

PaperWeekly

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
2
评论
深度强化学习实战：Tensorflow实现DDPG - PaperWeekly 第48期

作者丨李国豪学校丨中国科学院大学&上海科技大学研究方向丨无人驾驶，强化学习指导老师丨林宝军教授1. 前言本文主要讲解 DeepMind 发布在 ICLR 2016 的文章 Continuous control with deep reinforcement learning，时间稍微有点久远，但因为算法经典，还是值得去实现。2. 环境这次实验环境是 Openai Gym 的 Pendulum-v0
复制链接

扫一扫