基于tensorflow1.x的TD3代码实现

最新推荐文章于 2024-08-18 17:46:48 发布

qiaozhizhiji

最新推荐文章于 2024-08-18 17:46:48 发布

阅读量780

点赞数 2

分类专栏：深度强化学习文章标签： tensorflow 自然语言处理机器学习

本文链接：https://blog.csdn.net/qiaozhizhiji/article/details/120360753

版权

本文介绍了一种基于TensorFlow1.x的TD3算法实现，该实现是在morvan的DDPG算法基础上进行的改进。尽管可能存在不足，作者欢迎读者提出问题和建议。

摘要由CSDN通过智能技术生成

在morvan的DDPG基础上进行的改进，可能做得不完全正确，如有问题还请提出来。

import tensorflow as tf
import numpy as np
import gym
import time


#####################  hyper parameters  ####################

MAX_EPISODES = 200
MAX_EP_STEPS = 200
LR_A = 0.001    # learning rate for actor
LR_C = 0.002    # learning rate for critic
GAMMA = 0.9     # reward discount
TAU = 0.01      # soft replacement
MEMORY_CAPACITY = 10000
BATCH_SIZE = 32

RENDER = False
ENV_NAME = 'Pendulum-v0'

###############################  DDPG  ####################################

class TD3(object):
    def __init__(self, a_dim, s_dim, a_bound,):
        self.memory = np.zeros((MEMORY_CAPACITY, s_dim * 2 + a_dim + 1), dtype=np.float32)
        self.pointer = 0
        self.update_cnt = 0     #更新次数
        self.policy_target_update_interval = 3 #策略网络更新频率
        self.sess = tf.Session()

        self.a_dim, self.s_dim, self.a_bound = a_dim, s_dim, a_bound,
        self.S = tf.placeholder(tf.float32, [None, s_dim], 's')
        self.S_ = tf.placeholder(tf.float32, [None, s_dim], 's_')
        self.R = tf.placeholder(tf.float32, [None, 1], 'r')

        with tf.variable_scope('Actor'):
            self.a = self._build_a(self.S, scope='eval', trainable=True)
            a_ = self._build_a(self.S_, scope='target', trainable=False)
            sample = tf.distributions.Normal(lo

最低0.47元/天解锁文章

qiaozhizhiji

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
4
评论
基于tensorflow1.x的TD3代码实现

在morvan的DDPG基础上进行的改进，可能做得不完全正确，如有问题还请提出来。import tensorflow as tfimport numpy as npimport gymimport time##################### hyper parameters ####################MAX_EPISODES = 200MAX_EP_STEPS = 200LR_A = 0.001 # learning rate for actorL
复制链接

扫一扫

专栏目录