学习笔记:CliffWalking-v0环境实现Sarsa算法和Q-learning算法

源代码请参考(非本人写的)GitHub - XinJingHao/Deep-Reinforcement-Learning-Algorithms-with-Pytorch: Clean, Robust, and Unified PyTorch implementation of popular DRL Algorithms (Q-learning, Duel DDQN, PER, C51, Noisy DQN, PPO, DDPG, TD3, SAC, ASL)

根据环境要求配置好自己的环境,随后进行运行就可以了。

tensorboard的训练图如下:

这里有个小技巧是,原来的代码创建的日志名称有点长,如果想要看这个图的话,可以直接直接把那个路径写成:

log_dir='logs'

这样看的时候方便一些。

由于在学习阶段,所以想把这个Q-learning的代码改成Sarsa的,他俩本身也比较相似。

只需要改训练参数的那一部分

Q-learing是直接选择下一状态的最优动作的价值来更新,而Sarsa是会多使用一次动作选择,由此来更新,所以只需要在train这里做一下更改就可以了。

以上谨是个人学习记录。

  • 24
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值