强化学习基础知识梳理(5)

本文详细介绍了强化学习中基于策略优化的基础,包括Policy Gradient算法及其存在的问题与解决方法,特别是Actor-Critic算法。讨论了Deterministic和Stochastic策略,以及优化策略的多种方法,如Cross-Entropy Method和Finite Difference。此外,还探讨了降低方差的策略,如引入Baseline,并介绍了Actor-Critic算法如何结合价值函数进行策略评估。
摘要由CSDN通过智能技术生成

顺序以周博磊老师强化学习纲要课程为主,增加王树森老师强化学习基础的知识补充,和蘑菇书的知识补充,作为学习记录

第五章:策略优化基础

主要内容:

  1. 基于策略优化的强化学习
  2. 常见策略优化算法:Policy Gradient
  3. 存在问题及解决办法
  4. Actor-critic

一、基于策略函数的强化学习

  1. 回顾
    1. 基于价值函数的RL:
      1. 得到Q函数,对Q函数进行优化,获得Q值极大的动作

      2. 实际上,更重要的是策略,基于价值函数的最终目的也是获得使价值函数最高的策略,属于隐式的学习策略函数 
    2. 对比:
      1. 基于价值函数的RL
        1. 学习价值函数
        2. 通过价值函数隐式学习策略
      2. 基于策略函数的RL
        1. 不学习价值函数(即不关注某个状态的价值)
        2. 直接学习策略函数
      3. Actor-Critic 既学习价值函数又学习策略

         
  2. 基于策略函数的优化
    1. 优势:
      1. 强化学习中基于策略函数进行优化会使得优化更容易
      2. 无论数据多少都可以得到一个策略函数,数据越多效果越好(而在价值函数中,为了完成对Qtable的估计,是需要有很多数据的)
      3. 策略梯度方法在高维空间更有效(相对于高维动作空间,value只有单值,过于稀疏,而policy是向量)
      4. 策略梯度方法输出是概率(随机策略)(stochastic policy)(概率的优势会在之后提到)
    2. 缺点:
      1. 经常得到局部最优解,而不是全局最优解(因为建模时用的不是最优函数)
      2. 方差较大,导致结果不够稳定
    3. 分类:

      1. Determinstic policy:输出是一个确定的行为

      2. Stochastic policy:输出是各个行为的概率,执行时通过概率对行为进行采样

      3. 在某些场景中确定策略更容易输,随机策略才是最佳策略(优势之一)​​​​​​​

    4. 优化方法
      1. 优化策略实际优化的客观函数:π_θ(s,a)
      2. 如何衡量策略π_θ的价值?
        1. 在可结束回合中:取得开始的价值

        2. 在连续环境中
          1. 使用平均价值:

          2. 每一步获得的平均奖励

          3. 其中d是指当马尔可夫链到达稳态后,每个状态出现的概率 
        3. 从轨迹τ的角度来说(
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值