TD3源码与算法解析

最新推荐文章于 2024-03-20 21:51:49 发布

反卷局浪浪

最新推荐文章于 2024-03-20 21:51:49 发布

阅读量1.6k

点赞数

分类专栏：从零开始的强化学习文章标签：算法机器学习深度学习

本文链接：https://blog.csdn.net/qq_36220901/article/details/120237348

版权

本文介绍了TD3算法的实现细节，包括选择动作、经验回放、噪声注入、双目标Q网络以及延迟策略更新。通过源码解析，展示了如何在训练过程中使用经验回放缓冲区，并详细阐述了目标网络的更新策略，以防止过度估计问题。

摘要由CSDN通过智能技术生成

代码地址：https://github.com/sfujim/TD3

Class TD3：

方法1：

select action:

state = torch.FloatTensor(state.reshape(1, -1)).to(device) #转化成1行并且变成张量
		return self.actor(state).cpu().data.numpy().flatten()      #将张量拉平

将状态state传入actor神经网络，得到该状态下Q值最高的action。

方法2：

train:

	def train(self, replay_buffer, batch_size=256):
		self.total_it += 1

		# Sample replay buffer 
		state, action, next_state, reward, not_done = replay_buffer.sample(batch_size)

		with torch.no_grad():
			# Select action according to policy and add clipped noise
			noise = (
				torch.randn_like(action) * self.policy_noise
			).clamp(-self.noise_clip, self.noise_clip)
			
			next_action = (
				self.actor_targe

最低0.47元/天解锁文章

反卷局浪浪

关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
TD3源码与算法解析

代码地址：https://github.com/sfujim/TD3Class TD3：方法1： select action:state = torch.FloatTensor(state.reshape(1, -1)).to(device) #转化成1行并且变成张量 return self.actor(state).cpu().data.numpy().flatten() #将张量拉平将状态state传入ac...
复制链接

扫一扫