无模型策略评估:蒙特卡洛(MC)方法估计

无模型策略评估:蒙特卡洛(MC)方法估计

一、 蒙特卡洛(MC)方法可以解决什么强化学习问题

MC基于统计(大数)原理,可解决无模型的强化学习问题。核心思想为:智能体不断与环境交互,产生一系列历史轨迹(s,a,r,…,s,a,r,从开始到结束),通过索引历史轨迹中具体某个状态、行为下的累计回报G,并用他们的均值来估计这个状态、行为的值函数。

二、 MC增量更新值函数的算法

1、 MC一般更新算法

根据核心思想:
在这里插入图片描述
图中V(s)亦可为Q(s,a);一般情况下,都是估计Q(s,a),因为根据贝尔曼最优,它可以直接得出最优策略。

2、 增量更新方法

思路:每一条历史轨迹有一个累计回报G,每有一个G,就更新一次V or Q,具体算法如下:
在这里插入图片描述
以上算法,都是MC发挥其策略评估的作用,最终都要用于策略更新。

三、 epsilon-贪婪法

上面提到策略更新,就不得不提epsilon-贪婪法:
一般贪婪法和epsilon-贪婪法都用于策略更新上,一般贪婪法就是取Q值函数最大的a,使这个a的概率为1;epsilon-贪婪法考虑随机搜索,以概率epsilon进行随机取样,于是Pi(s|a)的概率就变为:
在这里插入图片描述
当然,epsilon可以在更新过程中逐渐衰减,变成自适应,是的更新到后面减少随机性,使决策结果更可靠。

四、 on-policy & off-policy

1、on-policy 在线策略

只有一个策略,智能体在这个策略下,和环境交互,获得历史轨迹;根据历史轨迹的平均回报来估计值函数;根据值函数,采用贪婪法或epsilon-贪婪法更新这个策略;循环至策略收敛。

2、off-policy 离线策略

有两个策略,一个是行为策略,一个是目标策略;智能体在行为策略下和环境交互,产生历史轨迹,并根据历史轨迹的平均回报来估计值函数;于此同时,目标策略根据这个估计值函数,采用贪婪法来更新自己的策略(但需要保证,这个估计值函数最大值对应的行为和目标策略在这个状态s下的行为a一致,简言,就是用别人的argmaxQ(s,a) 来更新自己的Pi(a|s)=1)
在这里插入图片描述
优势:智能体可以不用自己探索,可以参考别人探索产生的历史数据或旧的历史数据,所以叫离线。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值