蒙地卡罗(MC)算法

  1. 我们把智能体放到环境的任意状态;

  1. 从这个状态开始按照策略进行选择动作,并进入新的状态。

  1. 重复步骤2,直到最终状态;

  1. 我们从最终状态开始向前回溯:计算每个状态的G值。

  1. 重复1-4多次,然后平均每个状态的G值,这就是我们需要求的V值。

  • 第一步,我们根据策略往前走,一直走到最后,期间我们什么都不用算,还需要记录每一个状态转移,我们获得多少奖励r即可。

  • 第二步,我们从终点往前走,一遍走一遍计算G值。G值等于上一个状态的G值(记作G'),乘以一定的折扣(gamma),再加上r。

  1. G的意义:在某个路径上,状态S到最终状态的总收获。

  1. V和G的关系:V是G的平均数。

由于策略改变,经过某条路径的概率就会产生变化。因此最终试验经过的次数就不一样了。

缺点:

每一次游戏,都需要先从头走到尾,再进行回溯更新。如果最终状态很难达到,那小猴子可能每一次都要转很久很久才能更新一次G值。

如何解决:

时序差分(TD)算法

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

waski

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值