强化学习笔记（一）基础篇

最新推荐文章于 2024-08-04 22:27:33 发布

啊哈是小西瓜

最新推荐文章于 2024-08-04 22:27:33 发布

阅读量654

点赞数

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/m0_47172421/article/details/125694212

版权

强化学习：通过与环境交互，学习状态到行为的映射。
强化学习=智能体+外部环境
智能体：由策略、值函数和模型中的一个或多个组成。
- 策略 π(a|s)：表示在状态s下，各种可能发生的行为a的概率。
  - 确定性策略：根据具体状态输出一个动作。
  - 随机性策略：根据状态输出每个动作的概率。
- 值函数
  - 状态值函数：遵循策略π，获得的期望回报。
  - 状态行为值函数：执行策略π时当前状态s采取某一行为a时获得的期望回报。
  - 其中回报Gt为t时刻后所有汇报的有衰减总和， $\gamma$ 是衰减系数（也称折扣因子）
- 模型：智能体对外部环境的一个建模【非必需】
  - 作用：预测
    - 1.预测下一个可能状态发生的概率，即状态转移概率。
    - 2.预测可能获得的立即回报。
  - 状态转移概率：在状态s上采取行为a后下一状态的概率分布。
  - 立即回报：在状态s上采取行为a后得到的回报。

区别一：数据是否静态。
- 监督学习和非监督学习的数据均为静态的。
- 强化学习的数据是智能体在和环境不断交互，试错的过程中产生的具有高度相关性的动态数据。
区别二：样本和训练目标不同
- 监督学习通过对有标记的样本进行训练，旨在预测出新数据样本的标记。【样本有标记，有特征】
- 无监督学习通过对样本进行挖掘，旨在找出样本中潜在的结构信息。【样本无标记，有特征】
- 强化学习的样本仅有一个延迟回报信号，通过与环境交互，在试错的过程中获得从状态到行为的映射。【样本仅有一个延迟回报信号】

强化学习有很多种分类方式，此处仅介绍两种

根据是否建立环境动力学模型，分文有模型方法和无模型方法
- 有模型方法：在已知模型的环境种学习和求解的方法（如动态规划）
- 无模型方法：不依赖环境模型（如蒙特卡罗，时序差分）
根据估计方法不同，分为基于值函数的方法、基于策略的方法和行动家-评论家方法。
- 基于值函数的方法：在求解时仅仅估计状态值函数，并不估计策略函数。最优策略在对值函数进行迭代求解的过程中间接得到。
- 基于策略的方法：最优策略或行为通过求解策略函数产生，不求解各状态值的估计函数。
- 行动家-评论家方法：将基于值函数的方法和基于策略的方法相结合进行求解。

学习与规划：
- 学习：在环境模型未知的情况下，通过与环境交互、试错来改善策略。
- 规划：已知或近似了解环境的情况下，不再直接与环境交互，改为利用拟合环境模型来改善策略。
探索与利用：
- 探索：在某个状态下尝试新的行为。
- 利用，利用已知的信息，选取当前状态下最优的行为争取最大化回报。
预测与控制：也称评估与改善
- 预测/评估：评估当前的策略有多好。
- 控制/改善：在评估的基础上改善策略，直到该策略能获得最大化回报。