强化学习之Actor-Critic

Actor-Critic算法结合Policy Gradient和Function Approximation,通过Actor进行概率选择行动,Critic评估行动得分,促进Actor改进。它能进行单步更新,速度优于传统Policy Gradient,但Critic的收敛问题导致整体困难。DeepMind的Deep Deterministic Policy Gradient解决了这个问题,引入DQN优势。算法流程包括观察状态、选择行动、获取奖励、Critic学习、Actor学习和状态更新。
摘要由CSDN通过智能技术生成

Actor-Critic
一句话概括:结合了Policy Gradient(Actor)和Function Approximation(Critic).Actor基于概率选择,Critic基于Actor的行为评判行为的得分,Actor根据Critic的评分修改行为的概率。
优点:可以进行单步更新,比传统的policy Gradient要快。
缺点:取决于Critic的价值判断,但是Critic难以收敛,再加上Actor的更新,就更难收敛。为了解决这个问题,Google Deepmind提出了Actor Critic的升级版,Deep Deterministic Policy Gradient.后者融合了DQN的优势,解决了收敛难的问题.

Actor与Critic结构

  class Actor(object):
        def __init__(self, sess, n_features, n_actions, lr=0.001):
            self.sess = sess
	        self.s = tf.placeholder(tf.float32, [1, n_features], "state")
	        self.a = tf.placeholder(tf.int32, None, "act")
	        self.td_error = tf.placeholder(tf.float32, None, "td_error")  # TD_error

	        with tf.variable_scope('Ac
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值