Q-learning与Sarsa算法与区别 小学生都看得懂系列
请先看https://blog.csdn.net/u010223750/article/details/78955807这文章大概了解一下本文只是补充更仔细的代码实际运行过程,以彻底了解和区分Q-learning与Sarsa的算法与区别代码https://github.com/nuomizai/Qlearning正文:已知从0.0开始,走入1.0----10.0 奖励为-100,其它每步为-1,终点11.0奖励为0所有初始动作值都为0假设已知0.1向右的动作值为-0.5假设已知1.1向下的动
原创
2021-04-11 01:16:56 ·
528 阅读 ·
0 评论