深度强化学习笔记

最新推荐文章于 2024-08-27 21:36:13 发布

aftermoons

最新推荐文章于 2024-08-27 21:36:13 发布

阅读量878

点赞数 18

文章标签：学习笔记

本文链接：https://blog.csdn.net/aftermoons/article/details/135660275

版权

本文介绍了强化学习的基本概念，包括智能体与环境的交互、马尔可夫决策过程、状态转移矩阵和回报计算。重点回顾了马尔可夫过程，并提到了如何通过DQN算法应用于复杂环境中的决策优化。

摘要由CSDN通过智能技术生成

这是我在学习datawhale深度主动学习（二）的学习笔记

纯小白第一份笔记，因此思路主要顺的教程，大致讲讲自己的理解，后期在补充完整。

#Task01：马尔可夫过程、DQN算法回顾#

由简入繁，什么是强化学习呢？

强化学习———智能体怎么在复杂、不确定的环境中最大化它能获得的奖励。强化学习由两部分组成：智能体和环境。智能体和环境之间一直在交互。智能体在环境中获取某个状态后，他会利用该状态输出一个动作，这个动作也称为“决策”。然后这个动作会在环境中被执行，环境会根据智能体采取的动作，输出下一个状态S（t+1），及输出当前这个动作带来奖励R（t+1）。当然惩罚就是负的奖励。强化学习之中智能体的目的就是尽可能多的从环境体中获取奖励。例如玩炉石传说经典对战模式，每回合状态都不一样，根据1不同状态调整策略，但最终两名玩家中获取奖励最多（击杀对方）的玩家胜利，强化学习即怎么实现这个过程。

强化学习也可以类比试错学习，试错学习包括尝试、错误、结果、学习几个部分。试错学习虽然是强化学习中最鲜明的要素之一，但并不是强化学习的全部，强化学习还包含其它的学习形式例如观察学习（对应模仿学习、离线强化学习等技术）。

强化学习，通过一次次的决策来实现目标，通常目标是最大化积累的奖励，就是说一回合内，经过不断的决策一直到停止积累的奖励，这个过程就是序列决策。

马尔可夫决策过程

马尔可夫决策过程是强化学习的基本问题模型之一，它能够以数学的形式来描述智能体在与环境交互的过程中学到一个目标的过程。这里智能体充当的是作出决策或动作，并且在交互过程中学习的角色，环境指的是智能体与之交互的一切外在事物，不包括智能体本身。

图1，马尔可夫决策过程中智能体与环境的交互过程

智能体与环境之间按每个时步t交互，t=0,1,2,3...，在t步，智能体接收到环境处于状态 $s_{t}$ ,然后做出决策实行动作 $a_{t}$ 。执行完后收到奖励 $r_{t+1}$ ，注意这里是t+1步，因为这个奖励是用来作为t+1步决策的依据，做 $a_{t}$ 决策时考虑的是上一步的奖励。同时环境也会收到动作 $a_{t}$ 的影响会变成新的状态 $s_{t+1}$ ，并且在 t+1 时步被智能体观测到。如此循环下去，我们就可以在这个交互过程中得到一串轨迹

$s_{0},a_{0},r_{1},s_{1},a_{1},r_{2},...,s_{t},a_{t},r_{t+1}$

在强化学习中我们通常考虑的是有限马尔可夫决策过程（ Finite MDP ），即 t 是有限的，这个上限一般用 T 表示，也就是当前交互过程中的最后一个时步或最大步数，从 t=0 和 t+T 这一段时步我们称为一个回合 (episode ）.

马尔可夫性质

$P(s_{t+1}|s_{t})=P(s_{t+1}|s_{0},s_{1},\cdots,s_{t})$

这个公式的意思就是在给定历史状态s0,s1,⋯,st的情况下，某个状态的未来只与当前状态st有关，与历史的状态无关。但是也有一些实际问题不满足马尔可夫性质。这时我们可以用深度学习神经网络来表示当前的棋局，并用蒙特卡洛搜索树等技术来模拟玩家的策略和未来可能的状态，来构建一个新的决策模型。

回报

马尔可夫决策过程中智能体的目标是最大化累积的奖励。我们可以记为 $G_{t}$ 。

$G_{t}=r_{t+1}+r_{t+2}+r_{t+3}+\cdots+r_{T}$

表示一周期的回报，当 $T=\infty$

引入折扣因子 $\gamma$ ，它在0到1之间，表示我们考虑未来奖励的程度。

$G_{t}=r_{t+1}+\gamma r_{t+2}+\gamma ^{2}r_{t+3}+\cdots=\sum_{k=0}^{T=\infty }\gamma ^{k}r_{t+k+1}$

这样做还有一个好处就是

$G_{t}=r_{t}+\gamma G_{t+1}$

状态转移矩阵

满足马尔可夫性质。因此我们可以用一个概率来表示状态之间的切换，比如 $P_{12}=P(S_{t+1}=s_{2}|S_{t+1}=s_{1})=0.4$ 表示当前时步的状态是 s1 ,切换到s2的概率。

我们把这个概率称为状态转移概率（State Transition Probability）。拓展到所有状态我们可以表示为式 $P_{ss{}'}=P(S_{t+1}=s_{}'|S_{t}=s_{})$

写成矩阵的形式，每一行表示 $s_{i}$ 转移到 $s_{j}$ 的概率

这个矩阵就叫做状态转移矩阵（State Transition Matrix）

$P_{ss_{}'}=\begin{bmatrix} p_{11} &p_{11} & \cdots & p_{11} \\ p_{11} &p_{11} & \cdots & p_{11} \\ \vdots & \vdots& \ddots & \vdots\\ p_{11} &p_{11} & \cdots& p_{11} \end{bmatrix}$

其中 n 表示状态数，注意对于同一个状态所有状态转移概率加起来是等于 1 的，比如对于状态 s1 来说， $p_{11}+p_{12}+p_{13}+\cdots+p_{1n}=1$ 。还有一个非常重要的点就是，状态转移矩阵是环境的一部分,跟智能体是没什么关系的，而智能体会根据状态转移矩阵来做出决策。