Model-free强化学习

最新推荐文章于 2024-05-10 13:18:54 发布

lsjmax

最新推荐文章于 2024-05-10 13:18:54 发布

阅读量1.4k

点赞数 1

分类专栏：强化学习文章标签：蒙特卡洛时间差分强化学习

本文链接：https://blog.csdn.net/lsjmax/article/details/102593144

版权

本文介绍了强化学习中的在线学习与离线学习、奖励延迟和探索与利用问题。接着详细讲解了蒙特卡洛算法，包括策略估计、均值递推公式和策略改进。此外，还探讨了时间差分（TD）算法，如TD(0)和TD(λ)，以及它们与蒙特卡洛方法的区别。文章最后对比了MC、TD和动态规划（DP）算法的特点。

摘要由CSDN通过智能技术生成

强化学习几个问题

1.在线学习与离线学习
在线学习：agent与环境在线交互，将样本在线学习后，使用一次就丢掉。
离线学习：agent与仿真环境进行交互，将样本进行存储，也可以从别的地方直接拿来样本，可重复的从样本池中抽取样本进行学习。
离线学习样本的利用率较高，但是需要保证样本的可用性。
2.奖励的延迟
agent与环境交互，每次得到的是立即回报，可能需要一连串动作后，才能达到最终的成功状态，获取一个高奖励。因此，只根据立即回报agent不能决策当前最优的动作，需要考虑延迟的高奖励。这里就涉及到一个时间信用分配问题（temporal credit assignment)，agent最终达到的成功状态，是前面的哪几步起决定性作用，如果要将最终的奖励分配到从初始状态到最终状态的每一步决策上，应该如何分？
3.探索与利用
强化学习是以奖励为导向，以累计奖励最高为目标，但是问题的状态空间往往比较大，agent在一开始只能探索到一部分，从中进行学习到经验。agent是利用已有的经验去获取奖励，还是去探索未知的状态，也许能发现更好的奖励。理论上，agent只有经历过相应的动作-状态对，才能够得到相应的值函数，才有可能得到最优策略，但是大量的探索，会导致学习的效率低，探索与利用的平衡直接影响了强化学习的学习效率。

蒙特卡洛算法

MC策略估计

动态规划需要知道状态转化概率和回报函数，是有模型的学习，而现实中大部分的问题都是不知道状态转化概率和回报函数的，是无模型的学习。无法通过贝尔曼方程进行策略迭代和值迭代求最优策略，但是，可以通过和环境交互，获取大量的样本，通过样本统计，实现对模型的拟合估计，得到近似的价值函数。理论上来讲，只要样本足够大，估计值就可以看做事真实值。
蒙特卡洛算法主要用在策略评估，采用样本回报均值化来估计价值函数。通过采样，从初始状态 $s_0$ 到最终的结束状态 $s_t$ ,形成 ${(s_0,a_0,r_1,s_1),(s_1,a_1,r_2,s_2),(s_2,a_2,r_3,s_3),...(s_{t-1},a_{t-1},r_t,s_t)\}$ 序列，称为一个episode。采集大量的episode，根据价值函数的定义，某个状态的价值等于从现在到结束状态所有立即回报的累加和期望，那么就可以求出每个episode中，每个状态的价值，将所有episode中相同状态的价值求和，在除以总的episode个数，得到每个状态的价值平均值，根据大数定律，可知当样本足够大时，该均值就收敛至真实的价值函数。
这中间有一个问题，在一个episode中，若经历过两个相同的状态，该如何计算。目前有两种方法：FVMC(first visit MC)和EVMC(every visit MC)。FVMC是将每次episode中奖励算在了第一访问该状态上，EVMC是将奖励平均给了每次访问该状态上。
FVMC计算流程
$v (s)$ 表示状态 $s$ 的统计价值总和， $N (s)$ 表示访问过的 $s$ 的总次数， $G_i(s)$ 表示一个episode中每次出现 $s$ 的第 $i$ 次的回报。
1.状态出现次数： $N (s) = N (s) + 1$
2.总的统计价值变化: $v(s)=v(s)+G_1(s)$
3.平均价值： $\over N(s)}$
4. $N(s)-> 无穷，V(s) = V_π(s)$
EVMC计算流程
1.状态出现次数： $N (s)$

最低0.47元/天解锁文章

lsjmax

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Model-free强化学习

强化学习几个问题1.在线学习与离线学习在线学习：agent与环境在线交互，将样本在线学习后，使用一次就丢掉。离线学习：agent与仿真环境进行交互，将样本进行存储，也可以从别的地方直接拿来样本，可重复的从样本池中抽取样本进行学习。离线学习样本的利用率较高，但是需要保证样本的可用性。2.奖励的延迟agent与环境交互，每次得到的是立即回报，可能需要一连串动作后，才能达到最终的成功状态，获...
复制链接

扫一扫

专栏目录