自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U4:TD(时序差分)

本博客介绍了TD(Temporal Difference)Learning。TD Learning是一种无模型、Indirect的强化学习方法。TD Learning最大的特点就是bootstrapping,即利用过去的value estimates来更新当前的值函数。TD Learning相较于MC,最大的好处就是不用等到一个episode结束才更新。相反,TD Learning可以通过不完整的episode来更新value function,或者在连续任务中更新(连续任务中没有episode的概念)。

2024-08-13 11:19:56 354

原创 清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U3:蒙特卡罗学习

这篇博客主要介绍一种Model-free的Indirect RL方法——Monte Carlo Learning。这里的Model-free指的是Monte Carlo Learning不需要环境的模型,而是通过和环境的交互来学习。Indirect RL指的是Monte Carlo Learning不直接优化策略,而是通过求解Bellman方程来学习策略。

2024-08-10 11:22:18 317

原创 清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》系列读书笔记

该书由清华大学李升波教授撰写的,主要面向工业控制领域的研究者和工程师,曾获得2024年度Springer中国新发展奖(China New Development Awards)。全书按照原理剖析、主流算法、典型示例的架构,系统地介绍了用于动态系统决策与控制的强化学习方法。全书共分为11章,内容涵盖了强化学习的基本概念、蒙特卡洛法、时序差分法、动态规划法、函数近似法、策略梯度法、近似动态规划、状态约束的处理和深度强化学习等知识点。我的系列博客将对该书进行系统的学习和总结,希望能够对读者有所帮助。

2024-08-07 20:28:04 320

原创 清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U2:强化学习基本概念

强化学习基本概念。

2024-08-04 18:39:38 712

原创 清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U1:强化学习入门

本单元作为Reinforcement Learning for Sequential Decision and Optimal Control这本书第一单元的读书笔记,算是一个入门的笔记。介绍了强化学习的历史渊源和面临的挑战。这个单元的内容以介绍性的为主,因此就简单写写。

2024-08-04 11:56:18 31

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除