model free Monte Carlo-control

本文介绍了RL中的on-policy和off-policy策略,以及ε-Greedy探索在MC方法中的作用。ε-Greedy策略结合了确定性和探索性,满足GLIE条件。主要内容包括策略迭代的步骤,特别是如何在不满足探索性开始时使用ε-Greedy。最终强调了on-policyMC方法在策略优化中的应用。
摘要由CSDN通过智能技术生成


前言

RL入门学习,MC迭代优化策略,得到最优策略


1.on policy/off policy

on policy:优化做出决策的策略,只有一个策略 π \pi π,不仅用于学习,还用于与环境交互产生经验。
off policy:有两种策略,目标策略与行为策略,行为策略与环境进行交互得到经验用来优化目标策略,行为策略可以大胆的去探索环境,获得所有轨迹的经验,目标策略利用这些经验进行学习得到最优策略。
在这里插入图片描述


2.on-policy MC learning

基于DP的策略迭代,分为两步,即策略评估与策略改进,策略评估求出给定策略下的 V π V_{\pi} Vπ,策略提升利用环境已知的Q与V之间的关系,采用贪婪策略进行优化。而基于无模型的算法,Q与V之间的关系并不了解,因此采用基于Q的策略迭代进行优化策略。

ϵ − G r e e d y \epsilon-Greedy ϵGreedy探索

策略迭代收敛的假设是回合有探索性的开始,需要保证所有状态与动作都要在有限的时间步与有限的episodes当中被采用,因此采用贪婪策略缺少探索性不一定能满足exploring starts,同时只采用贪婪策略对策略进行优化仅仅利用过去的经验选择最好的动作优化策略,没有将探索考虑进来,因为刚开始并不确定哪些动作是最好的,因此需要一定的概率去探索其他动作带来的回报。
具体做法:所有的动作都有一定的概念进行尝试,以 1 − ϵ 1-\epsilon 1ϵ的概率选择贪婪动作,以 ϵ \epsilon ϵ的概率随机选择其他动作
在这里插入图片描述

基于 ϵ − G r e e d y \epsilon-Greedy ϵGreedy的MC方法


但该算法需要满足GLIE(greedy in the Limit with Infinite Exploration)条件,有限时间内进行无限可能的探索。
在这里插入图片描述

总结

采用on-policy MC方法进行策略优化。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值