第零课 强化学习的学习目的(基本学习思路)
1.学习建议
-
数学性和系统性强,不要想象速成,要将心态放平
-
有比较好的学习规划,对每一个章节都要理解透彻
-
脉络
-
-
第一章:基本概念
-
状态、动作、回报、、、
-
举例
-
马尔科夫决策过程的介绍
-
第二章:贝尔曼公式
-
概念:状态值 从某状态出发沿着某策略所得奖励回报的平均值,评价一个策略的优劣
-
工具:贝尔曼公式(贝尔曼方程):求解给定策略的状态值,即策略评价
-
贝尔曼最优公式
-
策略最优
-
强化学习的终极目标就是在求解最优策略
-
最优策略和最优状态值
-
贝尔曼最优公式:矩阵向量形式 运用到不动点原理 -> 重要问题: 最优策略存在性、最优策略不一定唯一但最优状态值一定唯一 给出算法逻辑
-
值迭代和策略迭代
-
第一批求解最优策略的方法与算法
-
值迭代
-
策略迭代
-
统一化值迭代和策略迭代
-
共同特点:迭代式算法, 产生策略更新和值更新
-
需要模型的算法
-
蒙特卡洛方法
-
鸿沟:没有模型的情况
-
学习随机变量的期望值 没模型要有数据,没数据要有模型
-
第一个不需要模型的强化学习算法
-
-
MCB 效率不足够高
-
MCES
-
MCG(贪婪算法)
-
-
随机近似理论
-
存在非增量式算法到增量式算法的鸿沟
-
随机变量均值估计
-
-
RM算法
-
SGD 随机梯度下降
-
SGD BGD MBGD
-
-
主要学习增量式算法和SGD的思想
-
时序差分方法
-
经典强化学习方法
-
-
TD学习状态值
-
SARSA:用TD思想学习动作值
-
Q-learning算法:直接计算最优 策略一致和策略不一致的应用
-
统一化的视角
-
-
值函数近似
-
鸿沟:表格形式到函数形式
-
VFA
-
VFA SARSA
-
VFA QLEARNING
-
DQL
-
引入神经网络
-
策略梯度方法
-
鸿沟:基于值到基于策略
-
策略梯度
-
梯度上升 REINFORCE
-
AC
-
基于策略和基于值的结合
-
QAC
-
A2C
-
重要性采样 一致性策略转差异性策略的桥梁
-
DPG(确定性策略)
-