强化学习笔记(西湖大学课程)第一节

第零课 强化学习的学习目的(基本学习思路)

    1.学习建议

  • 数学性和系统性强,不要想象速成,要将心态放平

  • 有比较好的学习规划,对每一个章节都要理解透彻

  1. 脉络

    1. 第一章:基本概念

    • 状态、动作、回报、、、

    • 举例

    • 马尔科夫决策过程的介绍

    1. 第二章:贝尔曼公式

    • 概念:状态值 从某状态出发沿着某策略所得奖励回报的平均值,评价一个策略的优劣

    • 工具:贝尔曼公式(贝尔曼方程):求解给定策略的状态值,即策略评价

    1. 贝尔曼最优公式

    • 策略最优

    • 强化学习的终极目标就是在求解最优策略

    • 最优策略和最优状态值

    • 贝尔曼最优公式:矩阵向量形式 运用到不动点原理 -> 重要问题: 最优策略存在性、最优策略不一定唯一但最优状态值一定唯一 给出算法逻辑

    1. 值迭代和策略迭代

    • 第一批求解最优策略的方法与算法

    • 值迭代

    • 策略迭代

    • 统一化值迭代和策略迭代

    • 共同特点:迭代式算法, 产生策略更新和值更新

    • 需要模型的算法

    1. 蒙特卡洛方法

    • 鸿沟:没有模型的情况

    • 学习随机变量的期望值 没模型要有数据,没数据要有模型

    • 第一个不需要模型的强化学习算法

      1. MCB 效率不足够高

      2. MCES

      3. MCG(贪婪算法)

    1. 随机近似理论

    • 存在非增量式算法到增量式算法的鸿沟

    • 随机变量均值估计

      1. RM算法

      2. SGD 随机梯度下降

      3. SGD BGD MBGD

    • 主要学习增量式算法和SGD的思想

    1. 时序差分方法

    • 经典强化学习方法

      1. TD学习状态值

      2. SARSA:用TD思想学习动作值

      3. Q-learning算法:直接计算最优 策略一致和策略不一致的应用

      4. 统一化的视角

    1. 值函数近似

    • 鸿沟:表格形式到函数形式

    • VFA

    • VFA SARSA

    • VFA QLEARNING

    • DQL

    • 引入神经网络

    1. 策略梯度方法

    • 鸿沟:基于值到基于策略

    • 策略梯度

    • 梯度上升 REINFORCE

    1. AC

    • 基于策略和基于值的结合

    • QAC

    • A2C

    • 重要性采样 一致性策略转差异性策略的桥梁

    • DPG(确定性策略)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值