sheng的学习笔记-AI-蒙特卡罗强化学习

AI目录:sheng的学习笔记-AI目录-CSDN博客

强化学习:sheng的学习笔记-AI-强化学习(Reinforcement Learning, RL)-CSDN博客

K-摇臂赌博机(K-armed bandit):https://blog.csdn.net/coldstarry/article/details/142390324

基础知识

什么是免模型学习

亦称“无模型学习”​。在现实的强化学习任务中,环境的转移概率、奖赏函数往往很难得知,甚至很难知道环境中一共有多少状态.若学习算法不依赖于环境建模,则称为“免模型学习”(model-free learning)

在免模型情形下,策略迭代算法首先遇到的问题是策略无法评估,这是由于模型未知而导致无法做全概率展开.此时,只能通过在环境中执行选择的动作,来观察转移的状态和得到的奖赏。

什么是蒙特卡罗强化学习

蒙特卡罗是强化学习中的免模型学习

一种直接的策略评估替代方法是多次“采样”​,然后求取平均累积奖赏来作为期望累积奖赏的近似,这称为蒙特卡罗强化学习。由于采样必须为有限次数,因此该方法更适合于使用T步累积奖赏的强化学习任务。

策略迭代算法估计的是状态值函数V,而最终的策略是通过状态-动作值函数Q来获得。当模型已知时,从V到Q有很简单的转换方法,而当模型未知时,这也会出现困难。于是,我们将估计对象从V转变为Q,即估计每一对“状态-动作”的值函数。

蒙特卡罗强化学习算法通过考虑采样轨迹,克服了模型未知给策略估计造成的困难。蒙特卡罗强化学习算法的本质,是通过多次尝试后求平均来作为期望累积奖赏的近似,但它在求平均时是“批处理式”进行的,即在一个完整的采样轨迹完成后再对所有的状态-动作对进行更新

这样的速度会比较慢

状态-动作值函数预估

在模型未知的情形下,机器只能是从一个起始状态(或起始状态集合)开始探索环境,而策略迭代算法由于需对每个状态分别进行估计,因此在这种情形下无法实现。例如探索种瓜的过程只能从播下种子开始,而不能任意选择种植过程中的一个状态开始。因此,我们只能在探索的过程中逐渐发现各个状态并估计各状态-动作对的值函数。

在模型未知的情形下,我们从起始状态出发,使用某种策略进行采样,执行该策略T步并获得轨迹

对轨迹中出现的每一对状态-动作,记录其后的奖赏之和,作为该状态-动作对的一次累积奖赏采样值。多次采样得到多条轨迹后,将每个状态-动作对的累积奖赏采样值进行平均,即得到状态-动作值函数的估计

策略改进

同策略和异策略

  • 同策略:在执行【策略评估】和【策略提升】的时候,使用的是相同的策略
  • 异策略:在执行【策略评估】和【策略提升】的时候,使用的不是相同的策略。

使用蒙特卡罗方法进行策略评估后,同样要对策略进行改进

“同策略”(on-policy)蒙特卡罗算法

被评估与被改进的是同一个策略,因此称为“同策略”(on-policy)蒙特卡罗强化学习算法。算法中奖赏均值采用增量式计算,每采样出一条轨迹,就根据该轨迹涉及的所有“状态-动作”对来对值函数进行更新。

“异策略”(off-policy)蒙特卡罗算法

 同策略蒙特卡罗强化学习算法最终产生的是-贪心策略。然而,引入-贪心是为了便于策略评估,而不是为了最终使用;实际上我们希望改进的是原始(非-贪心)策略。

能否仅在策略评估时引入-贪心,而在策略改进时却改进原始策略呢。

基于一个分布的采样来估计另一个分布下的期望,称为重要性采样(importance sampling)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值