莫烦强化学习笔记整理（八）Actor Critic

阿姝姝姝姝姝

于 2020-11-16 20:30:23 发布

阅读量493

点赞数 1

分类专栏：莫烦强化学习笔记文章标签：深度学习强化学习人工智能 tensorflow 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lxs3213196/article/details/109728722

版权

莫烦强化学习笔记整理（八）Actor Critic

1、Actor Critic 要点
- 总结
- 优势
- 劣势
2、Actor Critic 算法

链接: Actor Critic代码.

1、Actor Critic 要点

总结

Actor Critic 是一种结合了 Policy Gradient (Actor) 和 Function Approximation (Critic) 的方法。

Actor 基于概率选行为, Critic 基于 Actor 的行为评判行为的得分, Actor 根据 Critic 的评分修改选行为的概率。

优势

可以进行单步更新, 比传统的 Policy Gradient 要快。

劣势

难收敛。为了解决收敛问题, Google Deepmind 提出了 Actor Critic 升级版 Deep Deterministic Policy Gradient（DDPG）后者融合了 DQN 的优势, 解决了收敛难的问题。

2、Actor Critic 算法

Actor

在这里插入图片描述

class Actor(object):
    def __init__(self, sess, n_features, n_actions, lr=0.001):
        # 用 tensorflow 建立 Actor 神经网络,
        # 搭建好训练的 Graph.

    def learn(self, s, a, td):
        # s, a 用于产生 Gradient ascent 的方向,
        # td 来自 Critic, 用于告诉 Actor 这方向对不对.

    def choose_action(self, s):
        # 根据 s 选 行为 a

with tf.variable_scope('exp_v'):
    log_prob = tf.log

最低0.47元/天解锁文章

阿姝姝姝姝姝

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

阿姝姝姝姝姝 CSDN认证博客专家 CSDN认证企业博客

码龄6年

30: 原创

9万+: 周排名

202万+: 总排名

4万+: 访问

: 等级

561: 积分

79: 粉丝

65: 获赞

31: 评论

340: 收藏

私信

关注

热门文章

分类专栏

最新评论

莫烦强化学习笔记整理（四） DQN-part1
CCCCCConquer: 2024-05-30 10:26:25.496182: E tensorflow/stream_executor/cuda/cuda_blas.cc:428] failed to run cuBLAS routine: CUBLAS_STATUS_EXECUTION_FAILED Exception in Tkinter callback Traceback (most recent call last): File "C:\Users\14668\.conda\envs\carla_rl\lib\site-packages\tensorflow\python\client\session.py", line 1356, in _do_call return fn(*args) File "C:\Users\14668\.conda\envs\carla_rl\lib\site-packages\tensorflow\python\client\session.py", line 1341, in _run_fn options, feed_dict, fetch_list, target_list, run_metadata) File "C:\Users\14668\.conda\envs\carla_rl\lib\site-packages\tensorflow\python\client\session.py", line 1429, in _call_tf_sessionrun run_metadata) tensorflow.python.framework.errors_impl.InternalError: Blas GEMM launch failed : a.shape=(8, 10), b.shape=(8, 4), m=10, n=4, k=8 [[{{node train/gradients/eval_net/l2/MatMul_grad/MatMul_1}}]]
莫烦强化学习笔记整理（四） DQN-part1
CCCCCConquer: 请问tensorflow1.14.0+cuda10运行代码会报错是为什么？这个环境运行其他的tensorflow代码不会报错，好奇怪
建立自己的gym环境并调用
qq_58802700: 请问第四步调用新的环境文件夹写在一个新的python文件里面吗
习题：基于gym环境构建迷宫世界
小旁友～: 请问现在render模块移到哪了
机器人找金币问题环境测试优化
19 W: 运行不了动图哎，sys.meta_path is none

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。