强化学习笔记（西湖大学课程）第一节

最新推荐文章于 2024-10-11 21:48:33 发布

五山扫地老大爷

最新推荐文章于 2024-10-11 21:48:33 发布

阅读量320

点赞数 1

分类专栏：强化学习文章标签：笔记人工智能算法

本文链接：https://blog.csdn.net/2301_80029803/article/details/141792049

版权

强化学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

第零课强化学习的学习目的（基本学习思路）

1.学习建议

数学性和系统性强，不要想象速成，要将心态放平
有比较好的学习规划，对每一个章节都要理解透彻

脉络

1. 第一章：基本概念
- 状态、动作、回报、、、
- 举例
- 马尔科夫决策过程的介绍
1. 第二章：贝尔曼公式
- 概念：状态值从某状态出发沿着某策略所得奖励回报的平均值，评价一个策略的优劣
- 工具：贝尔曼公式（贝尔曼方程）：求解给定策略的状态值，即策略评价
1. 贝尔曼最优公式
- 策略最优
- 强化学习的终极目标就是在求解最优策略
- 最优策略和最优状态值
- 贝尔曼最优公式：矩阵向量形式运用到不动点原理 -> 重要问题：最优策略存在性、最优策略不一定唯一但最优状态值一定唯一给出算法逻辑
1. 值迭代和策略迭代
- 第一批求解最优策略的方法与算法
- 值迭代
- 策略迭代
- 统一化值迭代和策略迭代
- 共同特点：迭代式算法，产生策略更新和值更新
- 需要模型的算法
1. 蒙特卡洛方法
- 鸿沟：没有模型的情况
- 学习随机变量的期望值没模型要有数据，没数据要有模型
- 第一个不需要模型的强化学习算法
- 1. MCB 效率不足够高
  2. MCES
  3. MCG（贪婪算法）
1. 随机近似理论
- 存在非增量式算法到增量式算法的鸿沟
- 随机变量均值估计
- 1. RM算法
  2. SGD 随机梯度下降
  3. SGD BGD MBGD
- 主要学习增量式算法和SGD的思想
1. 时序差分方法
- 经典强化学习方法
- 1. TD学习状态值
  2. SARSA：用TD思想学习动作值
  3. Q-learning算法：直接计算最优策略一致和策略不一致的应用
  4. 统一化的视角
1. 值函数近似
- 鸿沟：表格形式到函数形式
- VFA
- VFA SARSA
- VFA QLEARNING
- DQL
- 引入神经网络
1. 策略梯度方法
- 鸿沟：基于值到基于策略
- 策略梯度
- 梯度上升 REINFORCE
1. AC
- 基于策略和基于值的结合
- QAC
- A2C
- 重要性采样一致性策略转差异性策略的桥梁
- DPG（确定性策略）