本次学习主要针对cumt《强化学习》这门课而针对性复习学习的。由于这门课只考前七章,因此复习也只包括前七章。
如果有时间可以在B 站观看赵世钰老师讲的课,非常详细
第一章 基本概念
计算题-计算trajectory和return
A trajectory(轨迹) is a state-action-reward chain,如下图所示:
第二章 贝尔曼方程
贝尔曼方程的一般形式和向量形式
计算题
第三章 贝尔曼最优方程
贝尔曼最优方程的一般化形式和向量形式
计算题
贝尔曼方程和贝尔曼最优方程的差异
- 贝尔曼方程是贝尔曼最优方程的一种特殊情况
- 贝尔曼方程是用来求解state value 和 action value
- 贝尔曼最优方程说明了最优策略下各状态的价值一定等于这个状态下最优动作的期望回报
第四章 值迭代和策略迭代
value iteration、policy iteration和truncated policy iteration之间的差异
value iteration和policy iteration是truncated policy iteration的两个极端情况。
第五章 MC
计算题
第七章 时序差分算法
Sarsa、n-step Sarsa、MC的差异
相同点
不同点
on-policy和off-policy各是什么,各有什么优缺点
on-policy的优点:
- 它可以保证收敛到最优策略或者接近最优策略的结果,如果满足一定的条件(如足够多的探索)
- 它可以适应动态变化的环境,因为它总是使用最新的数据来更新策略
on-policy的缺点:
- 它可能陷入局部最优解,特别是当初始状态或动作选择不合理时
off-policy的优点:
- 可以同时利用探索和利用,因为它有两个策略;一个用于探索,一个用于利用,可以避免陷入局部最优解
- 可以更容易实现函数逼近和经验回放,因为它不依赖于当前的策略
off-policy的缺点:
- 难以保证收敛性和稳定性,特别是在非静态环境中
Q-learning算法on-policy和off-policy版本的伪代码
小结
强化学习可能是我本科课程最后一门纸质考试了,谨写本篇来记录我本科课程最后的纸质学习。本科的学习大部分是根据老师划的重点来学习,是速成学习。而研究生阶段的学习是钻研与某一领域,是细致的学习。作为一名小研0,希望自己能坐得住冷板凳,有做研究,搞学术,善于钻研的热情,成功毕业不焦虑!