莫烦强化学习笔记整理（七）Actor Critic，DDPG，A3C概述

最新推荐文章于 2023-07-15 10:04:50 发布

阿姝姝姝姝姝

最新推荐文章于 2023-07-15 10:04:50 发布

阅读量2.2k

点赞数

分类专栏：莫烦强化学习笔记文章标签：神经网络人工智能深度学习机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lxs3213196/article/details/109677314

版权

莫烦强化学习笔记专栏收录该内容

10 篇文章 27 订阅

订阅专栏

莫烦强化学习笔记整理（七）Actor Critic，DDPG，A3C概述

1、Actor Critic概述
2、DDPG概述
3、A3C概述
- （1）平行训练
- （2）多核训练

1、Actor Critic概述

Actor Critic是强化学习中的一种结合体, 它合并了以值为基础 (比如 Q learning) 和以动作概率为基础 (比如 Policy Gradients) 两类强化学习算法。
在这里插入图片描述

Actor-Critic可以拆分成Actor和Critic两部分。

Actor 的前生是 Policy Gradients,可以在连续动作中选取合适的动作, 而 Q-learning 做这件事会瘫痪。

Critic 的前生是 Q-learning或者其他的以值为基础的学习法 , 能进行单步更新, 而传统的 Policy Gradients 是回合更新, 会降低学习效率。

Critic 通过学习环境和奖励之间的关系, 看到现在所处状态的潜在奖励, 从而指点 Actor实现单步更新。

2、DDPG概述

Actor-Critic 涉及到两个神经网络, 而且每次都是在连续状态中更新参数, 每次参数更新前后都存在相关性, 导致神经网络只能片面的看待问题，为了解决这个问题, 修改了 Actor Critic 的算法，即改进版 Deep Deterministic Policy Gradient (DDPG)。

DDPG的优势就是能够在连续动作上更有效地学习。
在这里插入图片描述
DDPG 分成 ‘Deep’ 和 ‘Deterministic Policy Gradient’。 ‘Deterministic Policy Gradient’ 又能被细分为 ‘Deterministic’ 和 ‘Policy Gradient’。

（1）Deep

即DDPG神经网络也使用DQN思想，使用一个记忆库，使用两套结构相同、但参数更新频率不同的神经网络。
在这里插入图片描述

（2）Deterministic Policy Gradient

Policy gradient可以在连续动作上进行动作筛选，且筛选是根据所学习到的动作分布随机进行。 Deterministic 改变了输出动作的过程, 只在连续动作上输出一个动作值。
在这里插入图片描述

（3）DDPG神经网络

跟AC类似，DDPG神经网络也可以划分为基于策略 Policy 的神经网络和基于价值 Value 的神经网络, 但是为了体现 DQN 的思想, 每种神经网络都需要再细分为两个。

Policy Gradient可以分为估计网络和现实网络。
估计网络用来输出实时的动作, 供 actor 在现实中实行；现实网络是用来更新价值网络系统的。

Value-Based价值系统也可以现实网络和估计网络。
状态现实网络从动作现实网络输出的动作加上状态的观测值加以分析, 状态估计网络把Actor 施加的动作当做输入。

在实际运用中, DDPG 的这种做法的确带来了更有效的学习过程。
在这里插入图片描述

3、A3C概述

（1）平行训练

A3C基本框架是Actor-Critic，为了训练一对 Actor 和 Critic,将其复制多份，同时进行训练，每个副本都向原本进行训练反馈，同时副本也可以从原本中收集到综合考量信息。

一来一回, 形成了一种有效率的强化学习方式.
在这里插入图片描述

（2）多核训练

使用A3C的方法，可以让运算副本在计算机不同的核上并行运行，大大提高计算速度。
在这里插入图片描述

阿姝姝姝姝姝

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
莫烦强化学习笔记整理（七）Actor Critic，DDPG，A3C概述

莫烦强化学习笔记整理（七）Actor Critic，DDPG，A3C概述1、Actor Critic概述2、DDPG概述（1）Deep（2）Deterministic Policy Gradient（3）DDPG神经网络3、A3C概述（1）平行训练（2）多核训练1、Actor Critic概述Actor Critic是强化学习中的一种结合体, 它合并了以值为基础 (比如 Q learning) 和以动作概率为基础 (比如 Policy Gradients) 两类强化学习算法。Actor-Crit
复制链接

扫一扫

专栏目录

阿姝姝姝姝姝 CSDN认证博客专家 CSDN认证企业博客

码龄5年

30: 原创

10万+: 周排名

41万+: 总排名

4万+: 访问

: 等级

558: 积分

77: 粉丝

65: 获赞

31: 评论

338: 收藏

私信

关注

热门文章

分类专栏

最新评论

莫烦强化学习笔记整理（四） DQN-part1
CCCCCConquer: 2024-05-30 10:26:25.496182: E tensorflow/stream_executor/cuda/cuda_blas.cc:428] failed to run cuBLAS routine: CUBLAS_STATUS_EXECUTION_FAILED Exception in Tkinter callback Traceback (most recent call last): File "C:\Users\14668\.conda\envs\carla_rl\lib\site-packages\tensorflow\python\client\session.py", line 1356, in _do_call return fn(*args) File "C:\Users\14668\.conda\envs\carla_rl\lib\site-packages\tensorflow\python\client\session.py", line 1341, in _run_fn options, feed_dict, fetch_list, target_list, run_metadata) File "C:\Users\14668\.conda\envs\carla_rl\lib\site-packages\tensorflow\python\client\session.py", line 1429, in _call_tf_sessionrun run_metadata) tensorflow.python.framework.errors_impl.InternalError: Blas GEMM launch failed : a.shape=(8, 10), b.shape=(8, 4), m=10, n=4, k=8 [[{{node train/gradients/eval_net/l2/MatMul_grad/MatMul_1}}]]
莫烦强化学习笔记整理（四） DQN-part1
CCCCCConquer: 请问tensorflow1.14.0+cuda10运行代码会报错是为什么？这个环境运行其他的tensorflow代码不会报错，好奇怪
建立自己的gym环境并调用
qq_58802700: 请问第四步调用新的环境文件夹写在一个新的python文件里面吗
习题：基于gym环境构建迷宫世界
小旁友～: 请问现在render模块移到哪了
机器人找金币问题环境测试优化
19 W: 运行不了动图哎，sys.meta_path is none

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。