对于一个较长的episode,如果出现了在同种状态下采取相同动作得到不同回报,有两种处理方式。
第一种名称为Every-visit MC是计算这几个的平均值,
第二种是First-visit MC只保留第一次的结果
强化学习&蒙特卡洛3.4 | Every-visit 和 First-visit MC
最新推荐文章于 2022-01-15 16:07:35 发布
本文探讨了在强化学习中处理长episode时,面对同一状态执行相同动作得到不同回报的情况。介绍了Every-visit蒙特卡洛方法,它计算所有访问该状态的回报平均值,以及First-visit蒙特卡洛方法,仅考虑首次访问状态的回报。
摘要由CSDN通过智能技术生成