强化学习之Actor-Critic

最新推荐文章于 2024-03-16 19:56:18 发布

q19930928

最新推荐文章于 2024-03-16 19:56:18 发布

阅读量499

点赞数

本文链接：https://blog.csdn.net/q19930928/article/details/87888735

版权

Actor-Critic算法结合Policy Gradient和Function Approximation，通过Actor进行概率选择行动，Critic评估行动得分，促进Actor改进。它能进行单步更新，速度优于传统Policy Gradient，但Critic的收敛问题导致整体困难。DeepMind的Deep Deterministic Policy Gradient解决了这个问题，引入DQN优势。算法流程包括观察状态、选择行动、获取奖励、Critic学习、Actor学习和状态更新。

摘要由CSDN通过智能技术生成

Actor-Critic
一句话概括：结合了Policy Gradient（Actor）和Function Approximation（Critic）.Actor基于概率选择，Critic基于Actor的行为评判行为的得分，Actor根据Critic的评分修改行为的概率。
优点：可以进行单步更新，比传统的policy Gradient要快。
缺点：取决于Critic的价值判断，但是Critic难以收敛，再加上Actor的更新，就更难收敛。为了解决这个问题，Google Deepmind提出了Actor Critic的升级版，Deep Deterministic Policy Gradient.后者融合了DQN的优势，解决了收敛难的问题.

Actor与Critic结构：

  class Actor(object):
        def __init__(self, sess, n_features, n_actions, lr=0.001):
            self.sess = sess
	        self.s = tf.placeholder(tf.float32, [1, n_features], "state")
	        self.a = tf.placeholder(tf.int32, None, "act")
	        self.td_error = tf.placeholder(tf.float32, None, "td_error")  # TD_error

	        with tf.variable_scope('Ac

最低0.47元/天解锁文章

q19930928

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
强化学习之Actor-Critic

Actor-CriticActor：l1 = tf.layers.dense(#输入一个state inputs=self.s, units=20, # number of hidden units activation=tf.nn.relu, kernel_i...
复制链接

扫一扫