强化学习基础知识梳理（5）

Love Q

已于 2022-06-26 21:09:54 修改

阅读量555

点赞数

分类专栏：强化学习预备知识文章标签：机器学习深度学习

于 2022-06-26 18:13:19 首次发布

本文链接：https://blog.csdn.net/LoveQR1/article/details/125468753

版权

本文详细介绍了强化学习中基于策略优化的基础，包括Policy Gradient算法及其存在的问题与解决方法，特别是Actor-Critic算法。讨论了Deterministic和Stochastic策略，以及优化策略的多种方法，如Cross-Entropy Method和Finite Difference。此外，还探讨了降低方差的策略，如引入Baseline，并介绍了Actor-Critic算法如何结合价值函数进行策略评估。

摘要由CSDN通过智能技术生成

顺序以周博磊老师强化学习纲要课程为主，增加王树森老师强化学习基础的知识补充，和蘑菇书的知识补充，作为学习记录

第五章：策略优化基础

主要内容:

基于策略优化的强化学习
常见策略优化算法：Policy Gradient
存在问题及解决办法
Actor-critic

一、基于策略函数的强化学习

回顾
1. 基于价值函数的RL：
  1. 得到Q函数，对Q函数进行优化，获得Q值极大的动作
  2. 实际上，更重要的是策略，基于价值函数的最终目的也是获得使价值函数最高的策略，属于隐式的学习策略函数
2. 对比：
  1. 基于价值函数的RL
    1. 学习价值函数
    2. 通过价值函数隐式学习策略
  2. 基于策略函数的RL
    1. 不学习价值函数（即不关注某个状态的价值）
    2. 直接学习策略函数
  3. Actor-Critic 既学习价值函数又学习策略
基于策略函数的优化
1. 优势:
  1. 强化学习中基于策略函数进行优化会使得优化更容易
  2. 无论数据多少都可以得到一个策略函数，数据越多效果越好（而在价值函数中，为了完成对Qtable的估计，是需要有很多数据的）
  3. 策略梯度方法在高维空间更有效（相对于高维动作空间，value只有单值，过于稀疏，而policy是向量）
  4. 策略梯度方法输出是概率（随机策略）（stochastic policy）（概率的优势会在之后提到）
2. 缺点：
  1. 经常得到局部最优解，而不是全局最优解（因为建模时用的不是最优函数）
  2. 方差较大，导致结果不够稳定
3. 分类：
  1. Determinstic policy:输出是一个确定的行为
  2. Stochastic policy：输出是各个行为的概率，执行时通过概率对行为进行采样
  3. 在某些场景中确定策略更容易输，随机策略才是最佳策略（优势之一）
4. 优化方法
  1. 优化策略实际优化的客观函数：π_θ（s,a）
  2. 如何衡量策略π_θ的价值？
    1. 在可结束回合中：取得开始的价值
    2. 在连续环境中
      1. 使用平均价值：
      2. 每一步获得的平均奖励
      3. 其中d是指当马尔可夫链到达稳态后，每个状态出现的概率
    3. 从轨迹τ的角度来说（