问题来源
问题来源背景是在学习强化学习的冰冻湖小例子,输出最优策略是[0,3,3,3,0,0,0,0,3,1,0,0,0,2,1,0],不理解这个最优策略啊,开始一路找答案
深刻理解
参考《gym冰冻湖环境学习笔记》, 一起来围观吧 https://blog.csdn.net/qq_20805805/article/details/104195493?utm_source=app&app_version=4.5.0
对于不确定性的理解
大概的意思是即使动作是向右,但是状态转移可能向右,也可能是向上或者是向下的,这就是不确定性
更深刻的理解
https://machinelearningjourney.com/index.php/2020/07/02/frozenlake/
搜到这篇讨论,讨论的更详细和深入些
今天的分享就到这里了,下一篇是关于蒙特卡洛21点游戏BlackJack