根据环境要求配置好自己的环境,随后进行运行就可以了。
tensorboard的训练图如下:
这里有个小技巧是,原来的代码创建的日志名称有点长,如果想要看这个图的话,可以直接直接把那个路径写成:
log_dir='logs'
这样看的时候方便一些。
由于在学习阶段,所以想把这个Q-learning的代码改成Sarsa的,他俩本身也比较相似。
只需要改训练参数的那一部分
Q-learing是直接选择下一状态的最优动作的价值来更新,而Sarsa是会多使用一次动作选择,由此来更新,所以只需要在train这里做一下更改就可以了。
以上谨是个人学习记录。