强化学习：蒙特卡洛方法总结（21点）

最新推荐文章于 2024-04-17 19:03:22 发布

小羽网虫

最新推荐文章于 2024-04-17 19:03:22 发布

阅读量2.7k

点赞数

分类专栏：深度学习算法

深度学习算法专栏收录该内容

6 篇文章 0 订阅

订阅专栏

21点代码链接：https://pan.baidu.com/s/1T0Ev8KJy2tcGIFiB3ddyyQ

提取码：提取码：6ft9

MC预测：状态值

解决预测问题的算法会确定策略 $\pi$ 对应的值函数 $v_\pi$ （或 $q_\pi$ ）。
通过与环境互动评估策略的方法分为两大类别：
- 在线策略方法使智能体与环境互动时遵守的策略 $\pi$ 与要评估（或改进）的策略相同。
- 离线策略方法使智能体与环境互动时遵守的策略 b（其中 $b\neq\pi$ ）与要评估（或改进）的策略不同。

状态 $s\in\mathcal{S}$ 在某个阶段中的每次出现称为 s 的一次经历。

有两种类型的蒙特卡洛 (MC) 预测方法（用于估算）：
- 首次经历 MC 将 $v_\pi(s)$ 估算为仅在 s 首次经历之后的平均回报（即忽略与后续经历相关的回报）。
- 所有经历 MC 将 $v_\pi(s)$ 估算为 s 所有经历之后的平均回报。

MC预测：动作值

状态动作对 $s,a (s\in\mathcal{S},a\in\mathcal{A})$ 在某个阶段中的每次出现称为 $s,a$ 的一次经历。
有两种类型的蒙特卡洛 (MC) 预测方法（用于估算）：
- 首次经历 MC 将 $q_\pi(s,a)$ 估算为仅在 $s,a$ 首次经历之后的平均回报（即忽略与后续经历相关的回报）。
- 所有经历 MC 将 $q_\pi(s,a)$ 估算为 s,as,a 所有经历之后的平均回报。

广义策略迭代

旨在解决控制问题的算法会通过与环境互动确定最优策略 $\pi_*$ 。
广义策略迭代 (GPI) 是指通过交替地进行策略评估和和改进步骤搜索最优策略的广义方法

MC控制：增量均值

（在此部分，推出了一个算法，该算法可以不断得出一系列数字的平均值。）

MC控制：策略评估

（在此部分，修改了策略评估步骤，在每个互动阶段结束后更新值函数。）

MC控制：策略改进

如果对于每个状态 $s\in\mathcal{S}$ ，它保证会选择满足 $a = \arg\max_{a\in\mathcal{A}(s)}Q(s,a)$ 的动作 $a\in\mathcal{A}(s)$ ，则策略相对于动作值函数估值 Q 来说是贪婪策略。（通常将所选动作称之为贪婪动作。）
如果对于每个状态，策略相对于动作值函数估值 Q 是 $\epsilon$ 贪婪策略。
- 概率为 $1-\epsilon$ 时，智能体选择贪婪动作，以及
- 概率为 $\epsilon$ 时，智能体随机（均匀地）选择一个动作

探索与利用

所有强化学习智能体都面临探索-利用困境，即智能体必须在根据当前信息采取最优动作（利用）和需要获取信息以做出更好的判断（探索）之间找到平衡。
为了使 MC 控制收敛于最优策略，必须满足有限状态下的无限探索贪婪算法 (GLIE) 条件：
- 所有状态动作对 $s, a$ （对于所有 $s\in\mathcal{S}$ 和 $a\in\mathcal{A}(s)$ ）被经历无穷次，以及
- 策略收敛于相对于动作值函数估值 $Q$ 来说是贪婪策略的策略。

MC控制：常量 $\LARGE \alpha$

（在此部分，为常量 $\alpha$ MC控制推出了一个算法，该算法使用了常量步长 $\alpha$ 。）
步长参数 $\alpha$ 必须满足 $0 < \alpha \leq 1$ 。 $\alpha$ 值越大，学习速度越快，但是如果 $\alpha$ 的值过大，可能会导致 MC 控制无法收敛于 $\pi_*$ 。

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
强化学习：蒙特卡洛方法总结（21点）

21点代码链接：https://pan.baidu.com/s/1T0Ev8KJy2tcGIFiB3ddyyQ提取码：提取码：6ft9MC预测：状态值解决预测问题的算法会确定策略对应的值函数（或）。通过与环境互动评估策略的方法分为两大类别：在线策略方法使智能体与环境互动时遵守的策略与要评估（或改进）的策略相同。离线策略方法使智能体与环境互动时遵守的...
复制链接

扫一扫

专栏目录

小羽网虫

CSDN认证博客专家 CSDN认证企业博客

码龄8年

3: 原创

7万+: 周排名

106万+: 总排名

5万+: 访问

: 等级

851: 积分

16: 粉丝

23: 获赞

12: 评论

201: 收藏

私信

关注

热门文章

分类专栏

最新评论

Windows环境下使用VS2015对YOLOV4源码的两种编译方式并测试
沙琪玛666: 请问一下楼主遇到过吗
Windows环境下使用VS2015对YOLOV4源码的两种编译方式并测试
沙琪玛666: Compiling the CUDA compiler identification source file "CMakeCUDACompilerId.cu" failed. Compiler: C:/Program Files/NVIDIA GPU Computing Toolkit/CUDA/v10.2/bin/nvcc 出现这个问题
强化学习基础：动态规划代码
ℳjokerい: 作者大大您好，请问您这个代码是智能体的区域探索吗？就是遍历每一个区域
Pytorch实现Word2Vec
m0_60873023: noise_vectors = self.out_embed(noise_words).view(batch_size,n_sample,self.n_embed) 这一行 n_sample 少打一个s
Pytorch实现Word2Vec
不负长风: 博主可以发一下原文的链接吗？谢谢啦~

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。