强化学习TD3算法笔记2——代码解读并基于colab平台复现

该博客详细介绍了如何在BipedalWalker-v3环境中应用TD3(双目标深度确定性策略梯度)算法进行强化学习。代码解析了actor和critic网络的定义,以及如何实现平滑正则化和目标网络的延迟更新。此外,还提供了在Google Colab上复现实验的步骤,包括环境设置、模型训练以及效果的视频保存。博客强调了调整训练episode数量以获得满意性能的重要性。

相关github地址

代码解读的代码链接:sfujim_TD3
colab运行代码:TD3-PyTorch-BipedalWalker-v2
可视化代码:colabgymrender

代码解读

Action、Critic网络定义

# Action网络定义
self.actor = Actor(state, action_dim, max_action).to(device)
# 将action的参数拷贝给target action
self.actor_target = copy.deepcopy(self.action)
self.actor_optimizer = torch.optim.Adam(self.actor.parameters(), lr=3e-4)

# Critic网络定义
self.critic = Critic(state, action).to(device)
self.critic_target = copy.deepcopy(self.critic)
self.critic_optimizer = torch.optim.Adam(self.critic.parameters(), lr=3e-4)

实现smooth_regularization

noise = (torch.randn_like(action)*self.policy_noise) # policy_noise = 0.2</
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值