文章目录
前言
RL入门学习,MC迭代优化策略,得到最优策略
1.on policy/off policy
on policy:优化做出决策的策略,只有一个策略
π
\pi
π,不仅用于学习,还用于与环境交互产生经验。
off policy:有两种策略,目标策略与行为策略,行为策略与环境进行交互得到经验用来优化目标策略,行为策略可以大胆的去探索环境,获得所有轨迹的经验,目标策略利用这些经验进行学习得到最优策略。
2.on-policy MC learning
基于DP的策略迭代,分为两步,即策略评估与策略改进,策略评估求出给定策略下的 V π V_{\pi} Vπ,策略提升利用环境已知的Q与V之间的关系,采用贪婪策略进行优化。而基于无模型的算法,Q与V之间的关系并不了解,因此采用基于Q的策略迭代进行优化策略。
ϵ − G r e e d y \epsilon-Greedy ϵ−Greedy探索
策略迭代收敛的假设是回合有探索性的开始,需要保证所有状态与动作都要在有限的时间步与有限的episodes当中被采用,因此采用贪婪策略缺少探索性不一定能满足exploring starts,同时只采用贪婪策略对策略进行优化仅仅利用过去的经验选择最好的动作优化策略,没有将探索考虑进来,因为刚开始并不确定哪些动作是最好的,因此需要一定的概率去探索其他动作带来的回报。
具体做法:所有的动作都有一定的概念进行尝试,以
1
−
ϵ
1-\epsilon
1−ϵ的概率选择贪婪动作,以
ϵ
\epsilon
ϵ的概率随机选择其他动作
基于 ϵ − G r e e d y \epsilon-Greedy ϵ−Greedy的MC方法
但该算法需要满足GLIE(greedy in the Limit with Infinite Exploration)条件,有限时间内进行无限可能的探索。
总结
采用on-policy MC方法进行策略优化。