StarMelt-CSDN博客

原创清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U4：TD（时序差分）

本博客介绍了TD（Temporal Difference）Learning。TD Learning是一种无模型、Indirect的强化学习方法。TD Learning最大的特点就是bootstrapping，即利用过去的value estimates来更新当前的值函数。TD Learning相较于MC，最大的好处就是不用等到一个episode结束才更新。相反，TD Learning可以通过不完整的episode来更新value function，或者在连续任务中更新（连续任务中没有episode的概念）。

2024-08-13 11:19:56 354

原创清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U3：蒙特卡罗学习

这篇博客主要介绍一种Model-free的Indirect RL方法——Monte Carlo Learning。这里的Model-free指的是Monte Carlo Learning不需要环境的模型，而是通过和环境的交互来学习。Indirect RL指的是Monte Carlo Learning不直接优化策略，而是通过求解Bellman方程来学习策略。

2024-08-10 11:22:18 317

原创清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》系列读书笔记

该书由清华大学李升波教授撰写的，主要面向工业控制领域的研究者和工程师，曾获得2024年度Springer中国新发展奖（China New Development Awards）。全书按照原理剖析、主流算法、典型示例的架构，系统地介绍了用于动态系统决策与控制的强化学习方法。全书共分为11章，内容涵盖了强化学习的基本概念、蒙特卡洛法、时序差分法、动态规划法、函数近似法、策略梯度法、近似动态规划、状态约束的处理和深度强化学习等知识点。我的系列博客将对该书进行系统的学习和总结，希望能够对读者有所帮助。

2024-08-07 20:28:04 320

原创清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U2：强化学习基本概念

强化学习基本概念。

2024-08-04 18:39:38 712

原创清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U1：强化学习入门

本单元作为Reinforcement Learning for Sequential Decision and Optimal Control这本书第一单元的读书笔记，算是一个入门的笔记。介绍了强化学习的历史渊源和面临的挑战。这个单元的内容以介绍性的为主，因此就简单写写。

2024-08-04 11:56:18 31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U4：TD（时序差分）

原创 清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U3：蒙特卡罗学习

原创 清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》系列读书笔记

原创 清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U2：强化学习基本概念

原创 清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U1：强化学习入门

空空如也

空空如也

原创清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U4：TD（时序差分）

原创清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U3：蒙特卡罗学习

原创清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》系列读书笔记

原创清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U2：强化学习基本概念

原创清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U1：强化学习入门