强化学习-赵世钰-学习笔记-cumt

本次学习主要针对cumt《强化学习》这门课而针对性复习学习的。由于这门课只考前七章,因此复习也只包括前七章

如果有时间可以在B 站观看赵世钰老师讲的课,非常详细

http://【【强化学习的数学原理】课程:从零开始到透彻理解(完结)】 https://www.bilibili.com/video/BV1sd4y167NS/?share_source=copy_web&vd_source=cc8f0c6e611501fdba9f6b458d5730c2

第一章 基本概念

计算题-计算trajectory和return

A trajectory(轨迹) is a state-action-reward chain,如下图所示:

第二章 贝尔曼方程

贝尔曼方程的一般形式和向量形式

计算题

第三章 贝尔曼最优方程

贝尔曼最优方程的一般化形式和向量形式

计算题

贝尔曼方程和贝尔曼最优方程的差异

  1. 贝尔曼方程是贝尔曼最优方程的一种特殊情况
  2. 贝尔曼方程是用来求解state value 和 action value
  3. 贝尔曼最优方程说明了最优策略下各状态的价值一定等于这个状态下最优动作的期望回报

第四章 值迭代和策略迭代

value iteration、policy iteration和truncated policy iteration之间的差异

value iteration和policy iteration是truncated policy iteration的两个极端情况。

第五章 MC

计算题

第七章 时序差分算法

Sarsa、n-step Sarsa、MC的差异

相同点

不同点

on-policy和off-policy各是什么,各有什么优缺点

on-policy的优点:

  • 它可以保证收敛到最优策略或者接近最优策略的结果,如果满足一定的条件(如足够多的探索)
  • 它可以适应动态变化的环境,因为它总是使用最新的数据来更新策略

on-policy的缺点:

  • 它可能陷入局部最优解,特别是当初始状态或动作选择不合理时

off-policy的优点:

  • 可以同时利用探索和利用,因为它有两个策略;一个用于探索,一个用于利用,可以避免陷入局部最优解
  • 可以更容易实现函数逼近和经验回放,因为它不依赖于当前的策略

off-policy的缺点:

  • 难以保证收敛性和稳定性,特别是在非静态环境中

Q-learning算法on-policy和off-policy版本的伪代码

小结

强化学习可能是我本科课程最后一门纸质考试了,谨写本篇来记录我本科课程最后的纸质学习。本科的学习大部分是根据老师划的重点来学习,是速成学习。而研究生阶段的学习是钻研与某一领域,是细致的学习。作为一名小研0,希望自己能坐得住冷板凳,有做研究,搞学术,善于钻研的热情,成功毕业不焦虑!

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值