model free Monte Carlo-control

最新推荐文章于 2024-09-15 15:29:29 发布

爱宇小菜涛

最新推荐文章于 2024-09-15 15:29:29 发布

阅读量879

点赞数 24

分类专栏：强化学习文章标签：人工智能算法

本文链接：https://blog.csdn.net/m0_66988867/article/details/135198422

版权

强化学习专栏收录该内容

9 篇文章 1 订阅

订阅专栏

本文介绍了RL中的on-policy和off-policy策略，以及ε-Greedy探索在MC方法中的作用。ε-Greedy策略结合了确定性和探索性，满足GLIE条件。主要内容包括策略迭代的步骤，特别是如何在不满足探索性开始时使用ε-Greedy。最终强调了on-policyMC方法在策略优化中的应用。

摘要由CSDN通过智能技术生成

文章目录

前言
1.on policy/off policy
- 2.on-policy MC learning
- - $\epsilon-Greedy$ 探索
  - 基于 $\epsilon-Greedy$ 的MC方法
总结

前言

RL入门学习，MC迭代优化策略，得到最优策略

1.on policy/off policy

on policy：优化做出决策的策略，只有一个策略 $\pi$ ，不仅用于学习，还用于与环境交互产生经验。
off policy：有两种策略，目标策略与行为策略，行为策略与环境进行交互得到经验用来优化目标策略，行为策略可以大胆的去探索环境，获得所有轨迹的经验，目标策略利用这些经验进行学习得到最优策略。
在这里插入图片描述

2.on-policy MC learning

基于DP的策略迭代，分为两步，即策略评估与策略改进，策略评估求出给定策略下的 $V_{\pi}$ ，策略提升利用环境已知的Q与V之间的关系，采用贪婪策略进行优化。而基于无模型的算法，Q与V之间的关系并不了解，因此采用基于Q的策略迭代进行优化策略。

$\epsilon-Greedy$ 探索

策略迭代收敛的假设是回合有探索性的开始，需要保证所有状态与动作都要在有限的时间步与有限的episodes当中被采用，因此采用贪婪策略缺少探索性不一定能满足exploring starts，同时只采用贪婪策略对策略进行优化仅仅利用过去的经验选择最好的动作优化策略，没有将探索考虑进来，因为刚开始并不确定哪些动作是最好的，因此需要一定的概率去探索其他动作带来的回报。
具体做法：所有的动作都有一定的概念进行尝试，以 $1-\epsilon$ 的概率选择贪婪动作，以 $\epsilon$ 的概率随机选择其他动作
在这里插入图片描述