强化学习基础2

3 无模型价值函数估计和控制

  有很多强化学习问题,我们没有办法事先得到模型状态转化概率矩阵P,这时如果仍然需要我们求解强化学习问题,那么这就是不基于模型的强化学习问题了。Model-free 就是典型的agent与环境交互获得观测和奖励来调整它的行为,通过一系列的观测收集到的数据来调整它的策略。

特点:

  • 并没有直接获得转移状态和奖励函数
  • 通过agent与环境进行交互,采集到了很多轨迹数据
  • 轨迹表现为:

 

 agent 从轨迹里面获取信息,改进策略以获得更多的奖励

它的两个问题一般的定义是:    

    预测问题,即给定强化学习的5个要素:状态集S, 动作集A, 即时奖励R,衰减因子γ,  给定策略π, 求解该策略的状态价值函数v(π)

    控制问题,也就是求解最优的价值函数和策略。给定强化学习的5个要素:状态集S, 动作集A, 即时奖励R,衰减因子γ, 探索率ϵ, 求解最优的动作价值函数q∗和最优策略π∗ 

  • 在不能获取MDP model的情况下估计 expected return
    • Monte Carlo policy evaluation(蒙特卡洛)
    • Temporal Difference (TD) learning

3.1  Monte Carlo policy evaluation 蒙特卡洛采样求解预测问题

        蒙特卡洛的方法主要是基于采样的方法,让agent与环境进行交互,得到很多轨迹。每一个轨迹都会得到一个实际的收益,然后直接从实际的收益来估计每个状态的价值。


MC simulation:在算取每个轨迹实际的return后,把很多轨迹进行平均,得到每个状态下面对应的价值。
MC policy evaluation是根据empirical mean return来估计,而不是expected return

马尔科夫决策过程(MDP)中对价值函数的定义:

        可以看出每个状态的价值函数等于所有该状态收获的期望,同时这个收获是通过后续的奖励与对应的衰减乘积求和得到。那么对于蒙特卡罗法来说,如果要求某一个状态的状态价值,只需要求出所有的完整序列中该状态出现时候的收获再取平均值即可近似求解,也就是:

 

 

 3.2  Temporal Difference (TD) learning 时序差分法求解预测问题

                虽然蒙特卡罗法很灵活,不需要环境的状态转化概率模型,但是它需要所有的采样序列都是经历完整的状态序列。如果我们没有完整的状态序列,那么就无法使用蒙特卡罗法求解了。本文我们就来讨论可以不使用完整状态序列求解强化学习问题的方法:时序差分法(Temporal-Difference, TD)。

强化学习(五)用时序差分法(TD)求解 - 刘建平Pinard - 博客园 (cnblogs.com)

3.3 Sarsa时序差分在线控制算法 

 强化学习(六)时序差分在线控制算法SARSA - 刘建平Pinard - 博客园 (cnblogs.com)

 3.4 Q-Lerning off-onine控制

强化学习(七)时序差分离线控制算法Q-Learning - 刘建平Pinard - 博客园 (cnblogs.com)

【强化学习纲要】3 无模型的价值函数估计和控制_Wwwilling的博客-CSDN博客

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值