强化学习笔记(一)基础篇

目录

  写在前面:本文系小编学习邹伟老师等人编著的《强化学习》这本书的学习笔记,
           文中对于相关概念的解释有些仅是小编个人的理解,
           如理解有误,还请各位指正。

1.强化学习相关概念

  • 强化学习:通过与环境交互,学习状态到行为的映射。
  • 强化学习=智能体+外部环境
  • 智能体:由策略、值函数和模型中的一个或多个组成。
    • 策略 π(a|s):表示在状态s下,各种可能发生的行为a的概率。
      • 确定性策略:根据具体状态输出一个动作。
      • 随机性策略:根据状态输出每个动作的概率。
        请添加图片描述
    • 值函数
      • 状态值函数:遵循策略π,获得的期望回报。
        请添加图片描述

      • 状态行为值函数:执行策略π时当前状态s采取某一行为a时获得的期望回报。
        请添加图片描述

      • 其中回报Gt为t时刻后所有汇报的有衰减总和, γ \gamma γ是衰减系数(也称折扣因子)
        请添加图片描述

    • 模型:智能体对外部环境的一个建模【非必需】
      • 作用:预测

        • 1.预测下一个可能状态发生的概率,即状态转移概率。
        • 2.预测可能获得的立即回报。
      • 状态转移概率:在状态s上采取行为a后下一状态的概率分布。
        请添加图片描述

      • 立即回报:在状态s上采取行为a后得到的回报。
        请添加图片描述

2.强化学习与监督学习和非监督学习的区别

  • 区别一:数据是否静态。
    • 监督学习和非监督学习的数据均为静态的。
    • 强化学习的数据是智能体在和环境不断交互,试错的过程中产生的具有高度相关性的动态数据。
  • 区别二:样本和训练目标不同
    • 监督学习通过对有标记的样本进行训练,旨在预测出新数据样本的标记。【样本有标记,有特征】
    • 无监督学习通过对样本进行挖掘,旨在找出样本中潜在的结构信息。【样本无标记,有特征】
    • 强化学习的样本仅有一个延迟回报信号,通过与环境交互,在试错的过程中获得从状态到行为的映射。【样本仅有一个延迟回报信号】

3.强化学习分类

强化学习有很多种分类方式,此处仅介绍两种

  • 根据是否建立环境动力学模型,分文有模型方法和无模型方法
    • 有模型方法:在已知模型的环境种学习和求解的方法(如动态规划)
    • 无模型方法 :不依赖环境模型(如蒙特卡罗,时序差分)
  • 根据估计方法不同,分为基于值函数的方法、基于策略的方法和行动家-评论家方法。
    • 基于值函数的方法:在求解时仅仅估计状态值函数,并不估计策略函数。最优策略在对值函数进行迭代求解的过程中间接得到。
    • 基于策略的方法:最优策略或行为通过求解策略函数产生,不求解各状态值的估计函数。
    • 行动家-评论家方法:将基于值函数的方法和基于策略的方法相结合进行求解。

4.三对重要概念

  • 学习与规划:
    • 学习:在环境模型未知的情况下,通过与环境交互、试错来改善策略。
    • 规划:已知或近似了解环境的情况下,不再直接与环境交互,改为利用拟合环境模型来改善策略。
  • 探索与利用:
    • 探索:在某个状态下尝试新的行为。
    • 利用,利用已知的信息,选取当前状态下最优的行为争取最大化回报。
  • 预测与控制:也称评估与改善
    • 预测/评估 :评估当前的策略有多好。
    • 控制/改善 :在评估的基础上改善策略,直到该策略能获得最大化回报。

写在最后:
-基础篇的公式乍一看可能不太理解或者看不进去,或许可以尝试先从了解一个算法的理论过程开始比如Q-Learning,然后再回头看基础篇,对于公式的理解应该会更深一些。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值