强化学习入门

时空摆渡者

已于 2024-01-27 16:32:00 修改

阅读量910

点赞数 22

分类专栏：人工智能强化学习文章标签：强化学习深度学习马尔可夫过程

于 2024-01-18 00:03:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/L1142456160/article/details/135663190

版权

人工智能同时被 2 个专栏收录

22 篇文章 2 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

强化学习是指智能体通过不断试错的方式进行学习，利用与环境进行交互时获得的奖励或惩罚来指导行为

试错学习

尝试（决策-decision）
错误
结果：每次尝试无论产生什么样的结果，都会对下一次结果产生影响
- 奖励（reward）：正确的结果
- 惩罚（punishment）：错误的结果
学习：通过不断地尝试来修正自己的行为，从而在下一次尝试中做出更有利的行为

试错学习的目标通常是以最大化累积的奖励来呈现，这个过程就是序列决策（sequential decision making）。

换句话说，对于任意问题，只要能够建模成序列决策问题或者带有鲜明的试错学习特征，就可以使用强化学习来解决，并且这是截至目前最为高效的方法之一，这就是要学习强化学习的原因。

其他类型的强化学习，例如观察学习（模仿学习、离线强化学习）

马尔可夫决策过程

马尔可夫决策过程（Markov decision process，MDP），它能够以数学的形式来表达序列决策过程，也是强化学习最基本的问题模型。

马尔可夫过程

智能体和环境之间交互是在一系列离散的时间（time step）中交互的，通常时间 $t$ 是有限的，即有限马尔可夫决策过程（Finite MDP）。上限用 $T$ 表示，从 $t$ 到 $T$ 为一个回合，比如游戏的一局。

有些方法可以拓展到连续时间的情况，但为了方便，我们尽量只考虑离散时步的情况。

性质

马尔可夫决策过程有一个前提，即马尔可夫性质。

$P(s_{t+1}|s_0,s_1,..,s_t) = P(s_{t+1}|s_t)$

在给定历史状态 $s_0,s_1,...,s_t$ 下，某个未来的状态只与当前状态 $s_t$ 有关，与历史的状态无关。

显然，现实生活中很多场景都不符合马尔可夫性质，但可以结合其他方法来辅助强化学习。

马尔可夫链

在这里插入图片描述

上图中， $s 1, s 2, s 3$ 分别表示三种不同的状态，其中的连线表示不同状态之间转移的概率。上图被称为马尔可夫链（Markov Chain），离散状态的马尔可夫过程也称为马尔可夫链，其状态是有限的，并且满足马尔可夫过程的性质，下一个时刻的状态只取决于当前时刻的状态。

例如 $P_{12} = P(S_{t+1} = s_2|S_{t} = s_1)$

进一步可扩展为 $P_{ss'} = P(S_{t+1} = s'|S_{t} = s)$

其中大写S表示所有状态的集合，可以将状态之间转化的概率用表格表示。

在这里插入图片描述
进而表示为状态转移矩阵（State Transition Matrix）

在这里插入图片描述

当给定状态转移的马尔可夫链后，我们可以对这个链进行采样，这样就会得到一串轨迹。

在这里插入图片描述

马尔可夫奖励过程（Markov Reward Processes，MRPs）

是马尔可夫链 + 奖励函数（Reward function）+ 折扣因子 $\gamma$ 。

奖励函数R是一个期望，表明当我们从一个状态到达另一个状态的时候，可以获得多大的奖励。

$R(s) = E[r_{t+1}|s_t = s]$

如果状态有限，则奖励函数可以用向量表示。如下图所示，可以将奖励过程看作一个随波逐流的纸船，到达不同位置获得不同的奖励。在下图中到达状态S1和S7分别可以获得5和10的奖励，到达其他状态没有奖励。

在这里插入图片描述

回报

$G_t = r_{t} + r_{t+1} + ... +r_{T}$

$G_t = r_{t} + \gamma r_{t+1} + ... +\gamma^nr_{T}$

其中 $G_t$ 是累积奖励（回报）， $\gamma$ 是衰减因子，位于0-1之间，奖励越靠后，权越小。

带衰减因子有以下考量

马尔可夫过程可能带环，避免无穷
想尽可能快的得到未来的奖励
作为超参数来调整对现在的状态还是之前的状态更看重

例如对轨迹： $s_4,s_5,s_6,s_7,\gamma = 0.5$ 的回报

$G = 0 + 0.5 * 0 + 0.25 * 0 + 0.125 * 10$

状态价值函数

当有了回报，就可以定义状态的价值，即状态价值函数（state-value function），在马尔可夫奖励过程中，状态价值函数被定义为回报的期望。注意，在不同的马尔可夫过程中，状态价值函数定义不同

$V^t(s) = E[G_t | s_t = s] \\ =E[r_{t} + \gamma r_{t+1} + ... +\gamma^nr_{T} | s_t = s]$

从定义可以看出，状态价值函数的意义是对回报的期望，就是从某个状态开始，我们可能获得多大的价值

在这里插入图片描述

例如计算S4的状态价值函数

方法一，蒙特卡罗

从S4开始，采样生成很多轨迹，对每个轨迹计算回报，最后平均

方法二，贝尔曼方程

在这里插入图片描述

贝尔曼方程就是当前状态与未来状态的迭代关系，表示当前状态的价值函数可以通过下个状态的价值函数来计算。贝尔曼方程因其提出者、动态规划创始人理查德 ⋅⋅ 贝尔曼（Richard Bellman）而得名，也叫作“动态规划方程”

贝尔曼方程的求解即是对状态价值函数求解

将贝尔曼方程写成矩阵形式，通过求解矩阵，可得到状态价值函数。但涉及到矩阵求逆，时间复杂度 $O(n^3)$ ，不适用状态数较多的情况。
迭代算法
- 动态规划
- 蒙特卡罗
- 时序差分学习（动态规划+蒙特卡罗）（temporal-difference learning，TD learning）

马尔可夫决策过程（MDPs）

马尔可夫决策过程可以用一个五元组< $S,A,R,P,\gamma$ >表示，其中A表示动作空间、R表示奖励函数、P表示状态转移矩阵、 $\gamma$ 表示衰减因子。

较MRP增加了决策（动作）A。

性质

$P(s_{t+1}|s_t,\alpha_t) = P(s_{t+1}|s_0,s_1,..,s_t，\alpha_t)$

未来的状态不仅依赖于当前的状态，也依赖于在当前状态智能体采取的动作。

奖励函数也多了一个当前的动作 $R(s_t = s,a_t = a) = E[r_t|s_t=s,a_t=a]$

策略函数

策略定义了在某一个状态应该采取什么样的动作。知道当前状态后，我们可以把当前状态代入策略函数π来得到一个概率，即

$π(a|s) = p(a_t =a|s_t=s)$

概率代表在所有可能的动作里面怎样采取行动。

比如可能有 0.7 的概率往左走，有 0.3 的概率往右走，这是一个概率的表示。
另外策略也可能是确定的，它有可能直接输出一个值，或者直接告诉我们当前应该采取什么样的动作，而不是一个动作的概率。

并且，已知策略函数和马尔可夫决策过程，可以将马尔可夫决策过程转化为马尔可夫奖励过程。

$状态转移函数P_{\pi}(s'|s) = \sum_{a \in A}{\pi(a|s)p(s'|s,a)]} \\ 奖励函数r_{\pi}(s) = \sum_{a \in A}{\pi(a|s)R(s,a)}$

状态/动作价值函数

$V_{\pi}(s) = E_{\pi}[G_t | s_t = s]$

这里我们另外引入了一个 Q 函数（Q-function）。Q 函数也被称为动作价值函数（action-value function）。

Q 函数定义的是在某一个状态采取某一个动作，它有可能得到的回报的一个期望，即

$Q_{\pi}(s,a) = E_{\pi}[G_t | s_t = s,a_t = a]$

这里的期望其实也是基于策略函数的。所以我们需要对策略函数进行一个加和，然后得到它的价值。对 Q 函数中的动作进行加和，就可以得到价值函数：

$V_{\pi}(s) = \sum_{a \in A} \pi(a|s)Q_{\pi}(s,a)$

MRP和MDP区别

在这里插入图片描述

左侧的马尔可夫奖励过程，从一个状态到另一个状态只需要状态转移函数 $P （ s^{'} ∣ s ）$ 。右侧的马尔可夫决策过程需要先选择行为，即中间一层黑色结点，最终转移到另一种状态。

在这里插入图片描述

DQN

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。