【从RL到DRL】强化学习基础（一）——强化学习基本介绍、基本的智能体概念

最新推荐文章于 2024-02-24 02:15:37 发布

Vulcan_Q

最新推荐文章于 2024-02-24 02:15:37 发布

阅读量1k

点赞数

分类专栏： RL到DRL 文章标签：人工智能

本文链接：https://blog.csdn.net/Vulcan_Q/article/details/127110246

版权

RL到DRL 专栏收录该内容

8 篇文章 6 订阅

订阅专栏

强化学习介绍

关于强化学习

强化学习在不同的学科中其实都具有不同的存在形式

机器学习的分支
- 有监督学习：利用一组已知类别的训练样本调整分类器的参数，使得习得的分类器能对未知样本进行分类或预测
- 无监督学习：从无标注的数据中学习隐含的结构或模式
- 强化学习：就是学习“做什么才能使数值化的收益信号最大化”，是机器通过与环境交互来实现目标的一种计算方法
区别与其他机器学习算法
- 没有监督数据，只有奖励（reward）信号
- 奖励信号不一定是实时的，可能存在延迟
- 时间是一个重要因素
- 智能体（Agent）当前的动作（Action）影响后续收到的数据
- 算法的稳定性目前仍没有具体的保证

强化学习基本要素（The RL Problem）

奖励
- 奖励(Rt)是一个反馈信号，是一个标量
- 反应智能体（Agent）在时间步t工作得如何
- 智能体的工作就是最大化累计奖励
- 强化学习主要基于奖励假设（Reward Hypothesis）
- 奖励假设：所有问题的目标都可以被描述成最大化期望的累积奖励
序列决策
- 目标：选择一定的动作序列以最大化未来的总体奖励
- 智能体的行为可能是一个很长的动作序列
- 大多数时候奖励是延迟的
- 宁愿牺牲即时（短期）奖励以获得更多的长期奖励
- 有些问题，不一定“步步优”，结果就是最优的
智能体
智能体与环境
- 智能体不是独立存在的，它需要与环境相互作用
- 智能体在每个时间步t：接收观测信息（observation）Ot、接收标量奖励信号Rt、执行动作（Action）At
- 环境：接收动作 At，产生观测 Ot+1、产生标量奖励信号 Rt+1
- 智能体结合了当前时间步长的奖励与观测信息后，完成了动作的执行，动作又会对下一个时间步长的环境产生影响，进而环境会给智能体新的观测信息与奖励。
历史与状态
- 历史是观测、行动和奖励的序列
- 根据历史可以决定接下来会发生什么，智能体选择行动，环境选择观测及奖励
- 状态是一种用于确定接下来会发生的事情（行动、观察、奖励）的信息
- 状态是关于历史的函数
环境状态
- 环境状态是环境内部的状态 ,用来确定下一个观测/奖励
- 环境状态通常对智能体是不可见的
- 即是环境状态可见，大都包含大量不相关的信息
智能体状态
- 是智能体内部对信息的表达，包括智能体可以使用的、决定未来动作的所有信息，是强化学习算法使用的信息
- 智能体状态时历史的函数
  ![在这里插入图片描述](https://img-blog.csdnimg.cn/8b3b83a632ae4353abf3646e3c3166ee.png#pic_cen ter =x300)
信息状态（Information State）
- 信息状态，也叫马尔科夫状态（Markov State），包含了历史上所有有用的信息
- 如果给定当前时刻的状态，将来与历史无关：

状态定义 状态定义是强化学习中极为关键的概念

完全可观测的环境（Fully Observation Environments）
- 完全可观测：智能体可以直接观察到全部环境状态
- 智能体状态 = 环境状态 = 信息状态
- 正式地说，这是马尔科夫决策过程（MDP）
部分可观测的环境（Partially Observable Environments）
- 部分可观测：智能体可以观测到环境的部分
- 智能体状态不等于环境状态
- 正式的说，这是部分可观测马尔科夫决策过程（POMDP）

智能体组成

强化学习智能体由下述三个组件中的一个或多个组成：

策略
- 是从状态到行动的映射
- 确定性策略：a = π（s），将状态s映射为动作a
- 随机策略：
价值函数
- 价值函数是对于未来积累奖励的预测
- 用于评估在给定的策略下状态的好坏
- 可用于选择动作：
模型
- 模型用于模拟环境的行为，建模环境的动态特征
- 【解决问题一】：状态转移问题：用来预测环境的下一个状态：
- 【解决问题二】：奖励：预测环境给出的下一个即时奖励：
- 环境真实的运行机制通常不称为模型，而称为环境动力学
- 模型并不能立即给我们一个好的策略

智能体分类

分类基准：

Else

在这里插入图片描述

强化学习问题

学习（Learning）与规划（Planning）
- 序列决策中的两个基础问题
- 强化学习：环境初始未知，智能体不断与环境交互，智能体提升它的策略
- 强化学习是一种试错的学习过程，更强调与环境的交互，而规划问题更多则往往已知了环境的模型，不需要与环境进行交互
- 规划：环境模型已知，智能体根据Model进行计算（不进行额外的交互），智能体提升它的策略
探索（Exploration）和利用（Exploitation）
- 探索会发现有关环境的更多信息，有选择地放弃某些奖励
- 利用已知信息来最大化回报，强调开发利用已有的信息
- 探索和利用是决策时需要平衡的两个方面
预测与控制
- 预测：评估未来；策略已给定
- 控制：最大化未来；找到最优策略