【强化学习的数学原理】课程：从零开始到透彻理解-30分钟了解强化学习名词脉络

我超爱Debug

于 2024-08-14 14:07:54 发布

阅读量780

点赞数 12

分类专栏：强化学习文章标签：学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43741419/article/details/141183002

版权

强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

完全零基础的学习强化学习，希望能入门

此图为强化学习的一个脉络图，主要分为两个板块

基础的工具
1. 基本的概念
2. 贝尔曼公式
3. 贝尔曼最优公式
算法和方法
1. 值迭代和策略迭代
2. 蒙特卡洛的方法
3. 时序差分的方法
4. Value Function Approximation
5. Policy Gradient 方法
6. Actor-Critic 方法

基础工具

基本的概念

贝尔曼公式

状态值(评价一个策略的好坏):

沿着一个策略我所得到奖励回报的一个平均值，状态值越高说明对应的策略越好

贝尔曼公式，描述了所有状态，状态值之间的关系

通过求解贝尔曼公式，求解出来给定策略它的状态值，进而评价策略的好坏

也就是第二章，其实就是类似给出了一个评估指标，即对应的状态值，去评价策略的好坏

但这里我有一些疑惑，

为什么是选择奖励汇报的平均值而不是最高值呢
或者说去掉一个最低值去掉一个最高值这种形式
状态值作为评价策略的局限性和好处分别是什么呢?
作为一个CVer，我能想到的是，比如，我在目标检测这个task下如果用了不同的loss，我的map会不同，其实类似的也是想找到最大map所对应的loss
如果一定存在最优策略，那么状态值是否一定能够找到？
状态值本身的差距是否能够证明策略的优劣程度的差距
这里我就会想到，其实类似的在解决一个问题的时候存在多种方法，多种方法之间的优缺点和适用场景一般我都通过列表来表示，这样会很直观的找到我所合适的
但有时候可能是会根据我场景的需求点来选择优点最大化的那个，举个例子，比如我只要求精度最高，那可能模型的复杂度和实时性就成为我不怎么考虑的范围

贝尔曼最优公式

强化学习的终极目标是什么?求解最优策略

似乎这里对于最优性的定义是有的，或许可以解决在上述我提到的问题

算法和方法

值迭代和策略迭代:Value Iteration& Policy Iteration

Value iteration 和 Policy iteraction是Truncated policy iteration的极端情况

换一句话说就是，Truncated policy iteration是VI和PI的统一情况

迭代是否是有限制的？

蒙特卡洛方法，Monte Carlo Learning

第一个不需要模型就能够找到最优策略的方法

需要模型和不需要模型的好处/缺点是什么

第一点，没有模型后你要干嘛你要学习什么

第二点，你没有模型你有什么，我们要学习什么呢

要学习随机变量的expectation

随机近似理论，Stochastic Approximation

时序差分的方法，Temporal-Difference Learning

Value Function Approximation

Policy Gradient 方法

Actor-Critic 方法

关注

12
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。