强化学习基础 | 介绍特点、基本要素、组成、智能体

Qodicat

于 2023-11-02 22:17:28 发布

阅读量706

点赞数 2

分类专栏： AI深度学习/神经网络方法文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Q52099999/article/details/134192458

版权

AI深度学习/神经网络方法专栏收录该内容

32 篇文章

订阅专栏

本文详细介绍了强化学习的概念，包括其特点、基本要素（奖励、序列决策和智能体组成）、智能体分类（策略、价值函数和模型），以及实际应用如AlphaGo和投资管理。强调了强化学习的试错学习性质和环境观察的可观测性问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

1. 强化学习应用
2. 强化学习介绍

1. 强化学习应用

如AlphaGo打围棋

投资管理

发电站控制

人机对话

计算机视觉

2. 强化学习介绍

2.1 强化学习特点

没有监督数据，只有奖励信号

奖励信号不一定是实时的，可能存在延迟。例如下棋，直到最后才知道赢还是输

时间是一个重要因素

智能体当前的动作影响后续接受到的数据

2.2 强化学习基本要素

2.2.1 奖励

奖励 $R_t$ 是一个反馈信号，是一个标量

反应智能体（Agent）在时间t工作的如何

智能体的工作就是最大化累计奖励

强化学习主要基于奖励假设

2.2.2 序列决策

目标：选择一定动作序列以最大化未来的总体奖励

智能体行为可能是一个很长的动作序列

大多数奖励是延迟的。宁愿牺牲短期奖励以获取更长期的奖励

2.2.3 智能体

接受观测，对环境做出动作，得到奖励的反馈

智能体在每个时间步t：

+ 接收观测$O_t$
+ 接收奖励信号 $R_t$
+ 执行动作$A_t$

智能体由下述三个组件中的一个或多个组成

1、策略：智能体的行为函数

2、价值函数：评估每个状态或行动有多好

3、模型：智能体对环境的表示，是智能体眼里的环境

环境：

+ 接收动作$A_t$
+ 产生观测$O_{t+1}$
+ 产生标量奖励信号$R_{t+1}$

这样智能体和环境不断的反馈交互

得到历史：历史是观测、行动和奖励的序列

$H_t=O_1,R_1,A_1,O_2,R_2...,O_t,R_t$

状态时一种用于确定接下来会发生的事情（行动、观测、奖励）的信息

状态是关于历史的函数 $S_t=f(H_t)$

对于环境可以分为

完全可观测环境，如下棋

MDP 马尔科夫决策过程

部分可观测环境，如打麻将，斗地主

POMDP 部分可观测马尔科夫决策过程

大部分都是部分可观测问题，可以通过一些近似，可以将部分可观测转换为完全可观测问题

2.3 智能体组成

2.3.1策略

策略是学习智能体在特定时间的行为方式

是从状态到行动的映射

确定性策略

随机策略

2.3.2 价值函数

价值函数：价值函数是对于未来累积奖励的预测

用于评估在给定策略下状态的好坏

可用于选择动作

2.3.3 模型

模型用于模拟环境的行为，建模环境的动态特性

解决以下两个问题

状态转移概率：用来预测环境的下一个状态

奖励：预测环境给出的下一个及时奖励

2.4 智能体分类

2.4.1 分类一组成

基于是否有价值函数谷歌

基于是否有直接策略搜素 OPEN-AI

上面两者都有的就是 Actor Critle

基于是否有模型的强化学习算法

2.4.2 分类二环境的回报函数

根据环境返回的回报函数是否已知

分为

正向强化学习
逆向强化学习：从专家的示例中学习回报函数

2.5 强化学习问题

序列决策有两类基础问题

强化学习

初始环境未知

智能体不断与环境交互

智能体提升他的策略

规划

环境模型已知

智能体根据Model进行计算

智能体提升他的策略

所以强化学习是一种试错的学习

智能体从其与环境的交互中发现一个好的策略

在试错的过程中不会损失太多的奖励

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。