相关github地址
代码解读的代码链接:sfujim_TD3
colab运行代码:TD3-PyTorch-BipedalWalker-v2
可视化代码:colabgymrender
代码解读
Action、Critic网络定义
# Action网络定义
self.actor = Actor(state, action_dim, max_action).to(device)
# 将action的参数拷贝给target action
self.actor_target = copy.deepcopy(self.action)
self.actor_optimizer = torch.optim.Adam(self.actor.parameters(), lr=3e-4)
# Critic网络定义
self.critic = Critic(state, action).to(device)
self.critic_target = copy.deepcopy(self.critic)
self.critic_optimizer = torch.optim.Adam(self.critic.parameters(), lr=3e-4)
实现smooth_regularization
noise = (torch.randn_like(action)*self.policy_noise) # policy_noise = 0.2</

该博客详细介绍了如何在BipedalWalker-v3环境中应用TD3(双目标深度确定性策略梯度)算法进行强化学习。代码解析了actor和critic网络的定义,以及如何实现平滑正则化和目标网络的延迟更新。此外,还提供了在Google Colab上复现实验的步骤,包括环境设置、模型训练以及效果的视频保存。博客强调了调整训练episode数量以获得满意性能的重要性。
最低0.47元/天 解锁文章
649

被折叠的 条评论
为什么被折叠?



