![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 95
我要 成果
永远相信美好的事情即将发生!!!
展开
-
【强化学习的数学原理-赵世钰】课程笔记(六)随机近似与随机梯度下降
本次课学习随机近似理论(Stochastic Approximation)和随机梯度下降(Stochastic Gradient Descent)。因为下节课我们要介绍 Temporal-Difference learning,这是一个无模型的强化学习算法,下节课与上节课介绍的有一个知识的鸿沟,比较难理解。实际上,Temporal-Difference learning 是 Stochastic Approximation 的一个特殊情况。因此,这节课先介绍背景知识。原创 2024-06-04 15:16:09 · 922 阅读 · 0 评论 -
【强化学习的数学原理-赵世钰】课程笔记(五)蒙特卡洛方法
上节课介绍了 model-base 的方法,这节课将介绍 model-free 的方法,上节课的 policy iteration 的方法是这节课的基础,我们把 policy iteration 当中基于模型的部分替换成不需要模型的部分就得到了今天的算法。在这门课中,把 value iteration 和 policy iteration 统称为 model-base reinforcement learning,但是更准确来说,它们应该称为动态规划(dynamic programming)的方法。原创 2024-05-28 09:33:42 · 539 阅读 · 0 评论 -
【强化学习的数学原理-赵世钰】课程笔记(四)值迭代与策略迭代
本节课讲的是 model base 的算法,下节课将会介绍 model-free 算法。值迭代和策略迭代和截断策略迭代都是求解最优状态值和最优策略的办法值迭代算法(value iteration algorithm):第三章的贝尔曼最优公式中,提到了有一个算法能求解贝尔曼最优公式,这个算法实际上就是值迭代算法。策略迭代算法(policy iteration algorithm):在第五章,不需要模型的蒙特卡洛方法中有重要应用。是下节课,蒙特卡洛学习(Mente Carlo learning)的一个基础。原创 2024-05-27 12:25:56 · 584 阅读 · 0 评论 -
【强化学习的数学原理-赵世钰】课程笔记(三)贝尔曼最优公式
贝尔曼最优公式原创 2024-05-25 15:46:37 · 415 阅读 · 0 评论 -
【强化学习的数学原理-赵世钰】课程笔记(二)贝尔曼公式
【强化学习的数学原理-赵世钰】课程笔记(二)贝尔曼公式一. 内容概述1. 第二章主要有两个内容(1)一个核心概念:状态值(state value):从一个状态出发,沿着一个策略我所得到的奖励回报的平均值。状态值越高,说明对应的策略越好。之所以关注状态值,是因为它能评价一个策略的好坏。(2)基本工具:贝尔曼公式(the Bellman equation):用于分析状态值,描述所有状态和状态值之间的关系,这个关系就是一个方程,一个等式。通过求解这个方程就可以求解出来一个给定策略的状态值,因此就可以评原创 2024-04-07 15:39:25 · 768 阅读 · 0 评论 -
【强化学习的数学原理-赵世钰】课程笔记(一)基本概念
强化学习原创 2024-04-02 15:50:17 · 378 阅读 · 0 评论 -
强化学习基础
强化学习基础原创 2024-03-06 11:34:57 · 836 阅读 · 0 评论