1 强化学习的问题模型

最新推荐文章于 2022-08-21 11:04:14 发布

MoryR

最新推荐文章于 2022-08-21 11:04:14 发布

阅读量622

点赞数

分类专栏：强化学习文章标签：强化学习

本文链接：https://blog.csdn.net/weixin_42028449/article/details/107592737

版权

1 强化学习的问题模型

在看方法之前先介绍一下强化学习对问题是如何抽象和建模的。

1.1 背景

强化学习面对的是连续决策的问题，通常可以用马尔可夫决策过程（Markov Decision Process）来描述，即 $t + 1$ 时刻的状态仅由 $t$ 时刻的状态 $s_t$ 和采取的行为 $a_t$ 来决定。

在强化学习中，可以将模型具体化为环境Environment和智能体Agent两个部分。
在时刻 $t$ ，处于状态 $s_t$ 的Agent可以根据某种策略 $\pi$ 来选择所要执行的动作 $a_t$ ，而环境则会根据Agent的状态和动作给出下一时刻的状态 $S_{t+1}$ 以及这一次行为得到的奖励 $R_{t+1}$ ，这样就完成了一次Agent决策、环境反馈的过程。
由此我们可以总结出强化学习重要的四元组 $< S, A, P, R >$

1.2 强化学习四元组

$S$ （State）指Agent的状态空间，既可以指Agent所处的状态（比如在网格迷宫中的位置），也可以指Agent从环境中得到的信息（比如像素级的游戏画面）。如果是多Agent的情况，就要使用Observation代替State，来表示每个智能体观察到的状态。
$A$ （Action）指Agent可以采取的行为空间。
$P$ （Probability）指环境的转移概率函数，这个函数根据当前时刻的状态和Agent采取的动作，来给出Agent下一时刻所处的状态的转移概率，可以表示为 $P:S\times A\times S\rightarrow \mathbb{R}$ 。
$R$ （Reward）指的是环境的奖励，即状态转移时，环境根据该函数来给Agent一个奖励。
对于有些应用，这个奖励只和状态转变有关，这个时候R函数就可以表示为 $R:S\times S\rightarrow \mathbb{R}$ 。
而对于有些应用，这个奖励还会和动作有关系，那么这样的R函数也可以表示为 $R:S\times A\times S\rightarrow \mathbb{R}$ 。

1.3 策略 Policy

所谓的策略就是根据当前所处的状态采取行为的方案，这个策略可以是固定的，即： $\pi：S \rightarrow A$ ，而更多时候则是一个概率分布： $\pi：S×A\rightarrow \mathbb {R}$ ，或者说： $\pi(a|s) = P( A_t = a| S_t = s)$

最低0.47元/天解锁文章

MoryR

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
1 强化学习的问题模型

1 强化学习的问题模型在看方法之前先介绍一下强化学习对问题是如何抽象和建模的。1.1 背景强化学习面对的是连续决策的问题，通常可以用马尔可夫决策过程（Markov Decision Process）来描述，即t+1t+1t+1时刻的状态仅由ttt时刻的状态sts_tst和采取的行为ata_tat来决定。在强化学习中，可以将模型具体化为环境Environment和智能体Agent两个部分。在时刻ttt，处于状态sts_tst的Agent可以根据某种策略π\piπ来选择所要执行的动作ata_ta
复制链接

扫一扫