莫烦强化学习笔记整理（十）Asynchronous Advantage Actor-Critic （A3C）

最新推荐文章于 2024-03-10 18:31:34 发布

阿姝姝姝姝姝

最新推荐文章于 2024-03-10 18:31:34 发布

阅读量507

点赞数

分类专栏：莫烦强化学习笔记文章标签： python 深度学习网络机器学习强化学习

本文链接：https://blog.csdn.net/lxs3213196/article/details/109729989

版权

莫烦强化学习笔记整理（十）Asynchronous Advantage Actor-Critic （A3C）

1、A3C 要点
2、A3C 算法

链接: A3C代码.

1、A3C 要点

A3C是Google DeepMind 提出的一种解决 Actor-Critic 不收敛问题的算法。它会创建多个并行的环境, 让多个拥有副结构的 agent 同时在这些并行环境上更新主结构中的参数，并行中的 agent 们互不干扰, 而主结构的参数更新受到副结构提交更新的不连续性干扰, 所以更新的相关性被降低, 收敛性提高。

2、A3C 算法

actor与critic网络

# 这个 class 可以被调用生成一个 global net.
# 也能被调用生成一个 worker 的 net, 因为他们的结构是一样的,
# 所以这个 class 可以被重复利用.
class ACNet(object):
    def __init__(self, globalAC=None):
        # 当创建 worker 网络的时候, 我们传入之前创建的 globalAC 给这个 worker
        if 这是 global:   # 判断当下建立的网络是 local 还是 global
            with tf.variable_scope('Global_Net'):
                self._build_net()
        else:
            with tf.variable_scope('worker'):
                self._build_net()

            # 接着计算 critic loss 和 actor loss
            # 用这两个 loss 计算要推送的 gradients

            with tf.name_scope('sync'):  # 同步
                with tf.name_scope('pull'):
                    # 更新去 global
                with tf.name_scope('push'):
                    # 获取 global 参数

    def _build_net(self):
        # 在这里搭建 Actor 和 C

最低0.47元/天解锁文章

阿姝姝姝姝姝

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
莫烦强化学习笔记整理（十）Asynchronous Advantage Actor-Critic （A3C）

莫烦强化学习笔记整理（十）Asynchronous Advantage Actor-Critic （A3C）1、A3C 要点2、A3C 算法actor与critic网络单个workerworker并行工作链接: A3C代码.1、A3C 要点A3C是Google DeepMind 提出的一种解决 Actor-Critic 不收敛问题的算法。它会创建多个并行的环境, 让多个拥有副结构的 agent 同时在这些并行环境上更新主结构中的参数，并行中的 agent 们互不干扰, 而主结构的参数更新受到副结构提交
复制链接

扫一扫

专栏目录