强化学习基础 | 介绍特点、基本要素、组成、智能体

1. 强化学习应用

如AlphaGo打围棋

投资管理

发电站控制

人机对话

计算机视觉

2. 强化学习介绍

2.1 强化学习特点

没有监督数据,只有奖励信号

奖励信号不一定是实时的,可能存在延迟。例如下棋,直到最后才知道赢还是输

时间是一个重要因素

智能体当前的动作影响后续接受到的数据

2.2 强化学习基本要素

2.2.1 奖励

奖励 R t R_t Rt是一个反馈信号,是一个标量

反应智能体(Agent)在时间t工作的如何

智能体的工作就是最大化累计奖励

强化学习主要基于奖励假设

2.2.2 序列决策

目标:选择一定动作序列以最大化未来的总体奖励

智能体行为可能是一个很长的动作序列

大多数奖励是延迟的。宁愿牺牲短期奖励以获取更长期的奖励

2.2.3 智能体

接受观测,对环境做出动作,得到奖励的反馈

智能体在每个时间步t:

+ 接收观测$O_t$
+ 接收奖励信号 $R_t$
+ 执行动作$A_t$

智能体由下述三个组件中的一个或多个组成

1、策略:智能体的行为函数

2、价值函数:评估每个状态或行动有多好

3、模型:智能体对环境的表示,是智能体眼里的环境

环境:

+ 接收动作$A_t$
+ 产生观测$O_{t+1}$
+ 产生标量奖励信号$R_{t+1}$

这样智能体和环境不断的反馈交互

得到历史:历史是观测、行动和奖励的序列

H t = O 1 , R 1 , A 1 , O 2 , R 2 . . . , O t , R t H_t=O_1,R_1,A_1,O_2,R_2...,O_t,R_t Ht=O1,R1,A1,O2,R2...,Ot,Rt

状态时一种用于确定接下来会发生的事情(行动、观测、奖励)的信息

状态是关于历史的函数 S t = f ( H t ) S_t=f(H_t) St=f(Ht)

对于环境可以分为

完全可观测环境,如下棋

​ MDP 马尔科夫决策过程

部分可观测环境,如打麻将,斗地主

​ POMDP 部分可观测马尔科夫决策过程

大部分都是部分可观测问题,可以通过一些近似,可以将部分可观测转换为完全可观测问题

2.3 智能体组成

2.3.1策略

策略是学习智能体在特定时间的行为方式

是从状态到行动的映射

确定性策略

随机策略

2.3.2 价值函数

价值函数:价值函数是对于未来累积奖励的预测

用于评估在给定策略下状态的好坏

可用于选择动作

2.3.3 模型

模型用于模拟环境的行为,建模环境的动态特性

解决 以下两个问题

​ 状态转移概率:用来预测环境的下一个状态

​ 奖励:预测环境给出的下一个及时奖励

2.4 智能体分类

2.4.1 分类一 组成

基于是否有价值函数 谷歌

基于是否有直接策略搜素 OPEN-AI

上面两者都有的就是 Actor Critle

基于是否有模型的强化学习算法

2.4.2 分类二 环境的回报函数

根据环境返回的回报函数是否已知

分为

  • 正向强化学习
  • 逆向强化学习:从专家的示例中学习回报函数

2.5 强化学习问题

序列决策有两类基础问题

强化学习

​ 初始环境未知

​ 智能体不断与环境交互

​ 智能体提升他的策略

规划

​ 环境模型已知

​ 智能体根据Model进行计算

​ 智能体提升他的策略

所以强化学习是一种试错的学习

智能体从其与环境的交互中发现一个好的策略

在试错的过程中不会损失太多的奖励

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值