强化学习-学习笔记15 | 连续控制

最新推荐文章于 2024-02-03 02:18:31 发布

u012804784

最新推荐文章于 2024-02-03 02:18:31 发布

阅读量631

点赞数

分类专栏： android 文章标签：学习 python 开发语言计算机

本文链接：https://blog.csdn.net/u012804784/article/details/125795888

版权

学习路线指引（点击解锁）	知识定位	人群定位
🧡 Python实战微信订餐小程序 🧡	进阶级	本课程是python flask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。
💛Python量化交易实战💛	入门级	手把手带你打造一个易扩展、更安全、效率更高的量化交易系统

本系列的完结篇，介绍了连续控制情境下的强化学习方法，确定策略 DPG 和随机策略 AC 算法。

离散动作空间
- Action space A=left,right,upAction space A=left,right,upAction \ space \ \mathcal{A}={left,right,up}
- 比如超级玛丽游戏中的向上\向左\向右；
- 此前博文讨论的，都是离散的控制，动作有限。
连续动作空间
- Action space A=[0°,360°]×[0°,180°]Action space A=[0°,360°]×[0°,180°]Action \ space \ \mathcal{A}=[0°,360°]×[0°,180°]
- 比如机械臂，如果具有两个运动关节：

连续空间离散化：

另外还有两个方法：

使用确定策略网络(Deterministic policy networkDeterministic policy networkDeterministic \ policy \ network)
使用随机策略(Stochastic policy networkStochastic policy networkStochastic \ policy \ network)。

回到顶部#### a. 基础了解

Deterministic Policy Gradient.确定策略梯度，可以用于解决连续控制问题。后续引入深度神经网络，就是著名的 DDPG。

DPG 是 Actor-Critic 方法的一种。结构图如下：

策略网络 actor
- 策略网络是确定性的函数 a=π(s;θ)a=π(s;θ)a=\pi(s;\theta)
- 输入是状态 s ；输出是一个具体的动作 s；即给定状态输出具体的动作，无随机性。
- 输出的动作是可以指导运动的实数或向量。
价值网络 critic
- 记作 q(s,a;w)q(s,a;w)q(s,a;w)
- 输入是状态 s 和动作 a，基于状态 s，评价动作 a 的好坏程度，输出一个分数 q；
训练两个神经网络，让两个网络越来越好。

关注

专栏目录