【从RL到DRL】强化学习基础(一)——强化学习基本介绍、基本的智能体概念

强化学习介绍

关于强化学习

强化学习在不同的学科中其实都具有不同的存在形式
在这里插入图片描述

  • 机器学习的分支
    • 有监督学习:利用一组已知类别的训练样本调整分类器的参数,使得习得的分类器能对未知样本进行分类或预测
    • 无监督学习:从无标注的数据中学习隐含的结构或模式
    • 强化学习:就是学习“做什么才能使数值化的收益信号最大化”,是机器通过与环境交互来实现目标的一种计算方法
  • 区别与其他机器学习算法
    • 没有监督数据,只有奖励(reward)信号
    • 奖励信号不一定是实时的,可能存在延迟
    • 时间是一个重要因素
    • 智能体(Agent)当前的动作(Action)影响后续收到的数据
    • 算法的稳定性目前仍没有具体的保证

强化学习基本要素(The RL Problem)

  • 奖励

    • 奖励(Rt)是一个反馈信号,是一个标量
    • 反应智能体(Agent)在时间步t工作得如何
    • 智能体的工作就是最大化累计奖励
    • 强化学习主要基于奖励假设(Reward Hypothesis)
    • 奖励假设:所有问题的目标都可以被描述成最大化期望的累积奖励

  • 序列决策

    • 目标:选择一定的动作序列以最大化未来的总体奖励
    • 智能体的行为可能是一个很长的动作序列
    • 大多数时候奖励是延迟的
    • 宁愿牺牲即时(短期)奖励以获得更多的长期奖励
    • 有些问题,不一定“步步优”,结果就是最优的

  • 智能体

    • 在这里插入图片描述
  • 智能体与环境

    • 智能体不是独立存在的,它需要与环境相互作用

    • 在这里插入图片描述
    • 智能体在每个时间步t:接收观测信息(observation)Ot、接收标量奖励信号Rt、执行动作(Action)At
    • 环境:接收动作 At,产生观测 Ot+1、产生标量奖励信号 Rt+1
    • 智能体结合了当前时间步长的奖励与观测信息后,完成了动作的执行,动作又会对下一个时间步长的环境产生影响,进而环境会给智能体新的观测信息与奖励

  • 历史与状态

    • 历史是观测、行动和奖励的序列
    • 在这里插入图片描述
    • 根据历史可以决定接下来会发生什么,智能体选择行动,环境选择观测及奖励
    • 状态是一种用于确定接下来会发生的事情(行动、观察、奖励)的信息
    • 状态是关于历史的函数
  • 环境状态

    • 环境状态是环境内部的状态 ,用来确定下一个观测/奖励
    • 环境状态通常对智能体是不可见的
    • 即是环境状态可见,大都包含大量不相关的信息
  • 智能体状态

    • 是智能体内部对信息的表达,包括智能体可以使用的、决定未来动作的所有信息,是强化学习算法使用的信息
    • 智能体状态时历史的函数
      ![在这里插入图片描述](https://img-blog.csdnimg.cn/8b3b83a632ae4353abf3646e3c3166ee.png#pic_cen ter =x300)
  • 信息状态(Information State)

    • 信息状态,也叫马尔科夫状态(Markov State),包含了历史上所有有用的信息 在这里插入图片描述

    • 如果给定当前时刻的状态,将来与历史无关:在这里插入图片描述

状态定义 状态定义是强化学习中极为关键的概念

  • 完全可观测的环境(Fully Observation Environments)
    • 完全可观测:智能体可以直接观察到全部环境状态在这里插入图片描述
    • 智能体状态 = 环境状态 = 信息状态
    • 正式地说,这是马尔科夫决策过程(MDP)
  • 部分可观测的环境(Partially Observable Environments)
    • 部分可观测:智能体可以观测到环境的部分
    • 智能体状态不等于环境状态
    • 正式的说,这是部分可观测马尔科夫决策过程(POMDP)

智能体组成

强化学习智能体由下述三个组件中的一个或多个组成:

智能体
策略(Policy)
价值函数(Value Function)
模型(Model)
智能体的行为函数。输入为状态,输出为行动决策
评估每个状态或行动有多好
智能体对环境的表示,是智能体眼里的环境
  • 策略
    • 是从状态到行动的映射
    • 确定性策略:a = π(s),将状态s映射为动作a
    • 随机策略:在这里插入图片描述
  • 价值函数
    • 价值函数是对于未来积累奖励的预测
    • 用于评估在给定的策略下状态的好坏
    • 可用于选择动作:在这里插入图片描述
  • 模型
    • 模型用于模拟环境的行为,建模环境的动态特征
    • 【解决问题一】:状态转移问题:用来预测环境的下一个状态:在这里插入图片描述
    • 【解决问题二】:奖励:预测环境给出的下一个即时奖励:在这里插入图片描述
    • 环境真实的运行机制通常不称为模型,而称为环境动力学
    • 模型并不能立即给我们一个好的策略

智能体分类

分类基准

策略的更新与学习
基于价值函数
基于直接策略搜索
基于执行者-评论者(Actor-Critic)

Or

是否依赖模型
基于模型的强化学习算法
无模型的强化学习算法

Else

回报函数是否已知
正向强化学习算法
逆向强化学习算法:从专家的示例中学习回报函数

在这里插入图片描述

强化学习问题

  • 学习(Learning)与规划(Planning)
    • 序列决策中的两个基础问题

    • 强化学习:环境初始未知,智能体不断与环境交互,智能体提升它的策略
    • 强化学习是一种试错的学习过程,更强调与环境的交互,而规划问题更多则往往已知了环境的模型,不需要与环境进行交互

    • 规划:环境模型已知,智能体根据Model进行计算(不进行额外的交互),智能体提升它的策略
  • 探索(Exploration)和利用(Exploitation)
    • 探索会发现有关环境的更多信息,有选择地放弃某些奖励
    • 利用已知信息来最大化回报,强调开发利用已有的信息
    • 探索和利用是决策时需要平衡的两个方面
  • 预测与控制
    • 预测:评估未来;策略已给定
    • 控制:最大化未来;找到最优策略
  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值