【强化学习的数学原理】课程:从零开始到透彻理解-30分钟了解强化学习名词脉络

完全零基础的学习强化学习,希望能入门

此图为强化学习的一个脉络图,主要分为两个板块

  1. 基础的工具
    1. 基本的概念
    2. 贝尔曼公式
    3. 贝尔曼最优公式
  2. 算法和方法
    1. 值迭代和策略迭代
    2. 蒙特卡洛的方法
    3. 时序差分的方法
    4. Value Function Approximation
    5. Policy Gradient 方法
    6. Actor-Critic 方法

基础工具

基本的概念

贝尔曼公式

状态值(评价一个策略的好坏):

沿着一个策略我所得到奖励回报的一个平均值,状态值越高说明对应的策略越好

贝尔曼公式,描述了所有状态,状态值之间的关系

通过求解贝尔曼公式,求解出来给定策略它的状态值,进而评价策略的好坏

也就是第二章,其实就是类似给出了一个评估指标,即对应的状态值,去评价策略的好坏

但这里我有一些疑惑,

  1. 为什么是选择奖励汇报的平均值而不是最高值呢
  2. 或者说去掉一个最低值去掉一个最高值这种形式
  3. 状态值作为评价策略的局限性和好处分别是什么呢?
    • 作为一个CVer,我能想到的是,比如,我在目标检测这个task下如果用了不同的loss,我的map会不同,其实类似的也是想找到最大map所对应的loss
  4. 如果一定存在最优策略,那么状态值是否一定能够找到?
  5. 状态值本身的差距是否能够证明策略的优劣程度的差距
    • 这里我就会想到,其实类似的在解决一个问题的时候存在多种方法,多种方法之间的优缺点和适用场景一般我都通过列表来表示,这样会很直观的找到我所合适的
    • 但有时候可能是会根据我场景的需求点来选择优点最大化的那个,举个例子,比如我只要求精度最高,那可能模型的复杂度和实时性就成为我不怎么考虑的范围

贝尔曼最优公式

强化学习的终极目标是什么?求解最优策略

似乎这里对于最优性的定义是有的,或许可以解决在上述我提到的问题

算法和方法

值迭代和策略迭代:Value Iteration& Policy Iteration

Value iteration 和 Policy iteraction是Truncated policy iteration的极端情况

换一句话说就是,Truncated policy iteration是VI和PI的统一情况

迭代是否是有限制的?

蒙特卡洛方法,Monte Carlo Learning

第一个不需要模型就能够找到最优策略的方法

需要模型和不需要模型的好处/缺点是什么

第一点,没有模型后你要干嘛你要学习什么

第二点,你没有模型你有什么,我们要学习什么呢

       要学习随机变量的expectation

随机近似理论,Stochastic Approximation

时序差分的方法,Temporal-Difference Learning

Value Function Approximation

Policy Gradient 方法

Actor-Critic 方法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值