DDQN代码实现

最新推荐文章于 2024-03-11 16:05:50 发布

新时代原始人

最新推荐文章于 2024-03-11 16:05:50 发布

阅读量1.6k

点赞数

分类专栏：强化学习文章标签： tensorflow 深度学习强化学习

本文链接：https://blog.csdn.net/weixin_40735291/article/details/120546566

版权

强化学习专栏收录该内容

7 篇文章 4 订阅

订阅专栏

DDQN代码实现

代码分析

DDQN的replay函数如下：

def replay(self):  
	for _ in range(10):  
		states, actions, rewards, next_states, done = self.buffer.sample()  
		# targets [batch_size, action_dim]  
		# Target represents the current fitting level # target = self.target_model(states).numpy() target = self.model(states).numpy()  
		# next_q_values [batch_size, action_diim]  
		next_target = self.target_model(next_states).numpy()  
		# next_q_value [batch_size, 1]  
		next_q_value = next_target[  
			range(args.batch_size), np.argmax(self.model(next_states), axis=1)  
		]  
		# next_q_value = tf.reduce_max(next_q_value, axis=1)  
		target[range(args.batch_size), actions] = rewards + (1 - done) * args.gamma * next_q_value  

		# use sgd to update the network weight  
		with tf.GradientTape() as tape:  
			q_pred = self.model(states)  
			loss = tf.losses.mean_squared_error(target, q_pred)  
		grads = tape.gradient(loss, self.model.trainable_weights)  
		self.model_optim.apply_gradients(zip(grads, self.model.trainable_weights))

DDQN的实现和DQN只有求next_q_value这一行代码不同。在DDQN中，是使用Q网络来选择最优动作，再使用target网络来计算下一时刻的Q值，而在DQN with Target中两步使用的都是target网络。
np.argmax(self.model(next_states), axis=1)语句的作用就是使用Q网络选择batch_size个state的最优动作，并返回一个长batch_size的一维数组，数组的每个值对应其中一个state的最有动作。

训练结果

1000次

DQN with Target代码实现

新时代原始人

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
DDQN代码实现

DDQN代码实现代码分析DDQN的replay函数如下：def replay(self): for _ in range(10): states, actions, rewards, next_states, done = self.buffer.sample() # targets [batch_size, action_dim] # Target represents the current fitting level # target = self.target
复制链接

扫一扫

专栏目录