强化学习之DDPG：Deep Deterministic Policy Gradient

最新推荐文章于 2024-04-11 13:44:31 发布

q19930928

最新推荐文章于 2024-04-11 13:44:31 发布

阅读量583

点赞数 2

本文链接：https://blog.csdn.net/q19930928/article/details/87895364

版权

一句话概括 DDPG: Google DeepMind 提出的一种使用 Actor Critic 结构, 但是输出的不是行为的概率, 而是具体的行为, 用于连续动作 (continuous action) 的预测. DDPG 结合了之前获得成功的 DQN 结构, 提高了 Actor Critic 的稳定性和收敛性.
因为 DDPG 和 DQN 还有 Actor Critic 很相关, 所以最好这两者都了解下, 对于学习 DDPG 很有帮助.

Actor包含了两个network
eval_net：进行训练，训练核心代码如下：
self.policy_grads = tf.gradients(ys=self.a, xs=self.e_params, grad_ys=a_grads)
opt = tf.train.AdamOptimizer(-self.lr) # (- learning rate) for ascent policy
self.train_op = opt.apply_gradients(zip(self.policy_grads, self.e_params))
target_net：不进行训练

class Actor(object):
    def __init__(self, sess, action_dim, action_bound, learning_rate, replacement):
        self.sess = sess
        self.a_dim = action_dim
        self.action_bound = action_bound
        self.lr = learning_rate
        self.replacement = replacement
        self.t_replace_counter = 0

        with tf.variable_scope('Actor'):
            # input s, output a
            self.a = self._build_net(S, scope='eval_net', trainable=True)

            # input s_, output a, get a_ for critic
            self.a_ = self._build_net(S_, scope='target_net', trainable=False)

    	self.e_params = tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES, scope='Actor/eval_net')
    	self.t_params = tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES, scope='Actor/target_net')
    
        #更新network参数
        if self.replacement['name'] ==

最低0.47元/天解锁文章

q19930928

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
强化学习之DDPG：Deep Deterministic Policy Gradient

一句话概括 DDPG: Google DeepMind 提出的一种使用 Actor Critic 结构, 但是输出的不是行为的概率, 而是具体的行为, 用于连续动作 (continuous action) 的预测. DDPG 结合了之前获得成功的 DQN 结构, 提高了 Actor Critic 的稳定性和收敛性.因为 DDPG 和 DQN 还有 Actor Critic 很相关, 所以最好这两...
复制链接

扫一扫