[强化学习二]强化学习的基本概念

最新推荐文章于 2024-05-27 10:11:45 发布

蛋总的快乐生活

最新推荐文章于 2024-05-27 10:11:45 发布

阅读量527

点赞数 1

文章标签：强化学习值函数目标函数马尔可夫决策

本文链接：https://blog.csdn.net/qwe900/article/details/113096013

版权

笔记参考链接https://nndl.github.io/的14章内容

文章目录

- - 4 强化学习
  - - 4.1 强化学习问题

4 强化学习

4.1 强化学习问题

4.1.1 典型例子

K臂赌博机问题
悬崖行走问题

4.1.2 强化学习的定义

在强化学习中，有两个可以交互的对象：智能体和环境

(1)智能体可以感知外界环境的状态和反馈的奖励，并进行学习和决策。智能体的决策功能是根据外界环境的状态来做出不同的动作，而学习功能是根据外界环境的奖励来调整策略。

(2)环境是智能体外部的所有事物，并受智能体动作的影响而改变其状态，并反馈给智能体相应的奖励。

强化学习的基本要素包括：

(1)状态 $s$ 是对环境的描述，可以是离散的或连续的，其状态空间为 $S$

(2)动作 $a$ 是对智能体行为的描述，可以是离散的或连续的，其动作空间为 $A$

(3)策略 $\pi(a|s)$ 是智能体根据环境状态 $s$ 来决定下一步动作 $a$ 的函数

(4)状态转移概率 $p (s^{'} ∣ s, a)$ 是在智能体根据当前状态 $s$ 做出一个动作 $a$ 之后，环境在下一个时刻转变为状态 $s^{'}$ 的概率

(5)即时奖励 $r (s, a, s^{'})$ 是一个标量函数，即智能体根据当前的状态 $s$ 做出动作 $a$ 之后，环境会反馈给智能体一个奖励，这个奖励也经常和下一个时刻的状态 $s$

策略

智能体的策略就是智能体如何根据环境状态 $s$ 来决定下一步的动作 $a$ ，通常可以分为确定性策略和随机性策略。

确定性策略是从状态空间到动作空间的映射函数 $\pi:S \rightarrow A$ 。
随机性策略表示在给定环境状态时，智能体选择某个动作的概率分布.

$\pi(a|s)=p(a|s) \\ \sum_{a\in A}\pi(a|s)=1$

通常情况下，强化学习一般试用随机性策略。随机性策略可以有很多优点：

在学习时可以通过引入一定随机性更好的探索环境
随机性策略的动作具有多样性，这一点在多个智能体博弈时也非常重要。采用确定性策略的之恩那个提总是对同样的环境做出相同的动作，会导致它的策略很容易被对手预测.

4.1.3 马尔可夫决策过程

为简单起见，我们将智能体与环境的交互看作离散的时间序列。智能体从感知到的初始环境 $s_0$ 开始，然后决定做一个相应的动作 $a_0$ ，环境相应地发生改变到新的状态 $s_1$ ，并反馈给智能体一个即时奖励 $r_1$ ，然后智能体又根据状态 $s_1$ 做一个动作 $a_1$ ，环境相应改变为 $s_2$ ，并反馈奖励 $r_2$ ，这样的交互可以一直进行下去。
$s_0,a_0,s_1,r_1,a_1,s_2,r_2...s_{t-1},r_{t-1},a_{t-1},s_t,r_t...,$
其中 $r_t=r(s_{t-1},a_{t-1},s_t)$ 是第 $t$ 时刻的即时奖励。

智能体与环境的交互过程可以看作一个马尔可夫决策过程，Markov Decision Process，MDP

马尔可夫过程是一组具有马尔可夫性质的随机变量序列 $s_0,s_1,...s_t \in S$ ，其中下一个时刻的状态 $s_{t+1}$ 只取决于当前的状态 $s_t$ ，
$p(s_{t+1}|s_t,...s_0)=p(s_{t+1}|s_t)$
其中 $p(s_{t+1}|s_t)$ 称为状态转移概率 $\sum_{}p(s_{t+1}|s_t)=1,s_{t+1}\in S$ ，也就是前文的 $A$ 矩阵。

马尔可夫决策过程在马尔可夫过程加入一个额外的变量：动作 $a$ ，下一个时刻的状态 $s_{t+1}$ 不但和当前时刻的状态 $s_t$ 相关，而且和动作 $a_t$ 相关，
$p(s_{t+1}|s_t,a_t...s_0,a_0)=p(s_{t+1}|s_t,a_t)$
其中 $p(s_{t+1}|s_t,a_t)$ 称为状态转移概率。

在这里插入图片描述

直观的理解，下一个时刻的状态不仅由上一个时刻的状态有关，还和上一个时刻产生的动作有关。

给定策略 $\pi(a|s)$ ，马尔可夫决策过程的一个轨迹（Trajectory）
$\tau=s_0,a_0,s_1,r_1,a_1,...s_{T-1},a_{T-1},s_{T},r_{T}$
的概率为：

如果将第一个状态拿出来，那么依次都是动作，新状态，奖励…依次到最后一个是动作，最终状态，奖励。

如果再写出来一项，第一个为起始的状态 $s_0$ ，然后是在状态 $s_1$ 下选择动作 $a_1$ 这个策略的概率 $\pi(a_1|s_1)$ ，然后乘以在状态 $s_1$ 和采取动作 $a_1$ 的情况下，结果到达状态 $s_2$ 的条件概率 $p(s_{2}|s_1,a_1)$ 。

$\begin{aligned} p(\tau)&=p(s_0,a_0,s_1,a_1,...) \\ &=p(s_0)\prod_{t=0}^{T-1}\pi(a_t|s_t)p(s_{t+1}|s_t,a_t) \\ &=p(s_0)\pi(a_1|s_1)p(s_{2}|s_1,a_1)\prod_{t=1}^{T-1}\pi(a_t|s_t)p(s_{t+1}|s_t,a_t) \end{aligned}$

4.1.4 强化学习的目标函数

4.1.4.1 总回报

给定策略 $\pi(a|s)$ ，智能体和环境一次交互过程的轨迹 $\tau$ 所收到的累计奖励为总回报(Return)
$\begin{aligned} G(\tau)&=\sum_{t=0}^{T-1}r_{t+1} \\ &=\sum_{t=0}^{T-1}r(s_t,a_t,s_{t+1}) \end{aligned}$
假设环境中有一个或多个特殊的终止状态，当到达终止状态时，一个智能体和环境的交互过程就结束了。这一轮交互的过程为一个Episode(回合) 或 trial，一般的强化学习都属于这种回合式任务。

如果环境中没有终止状态，即 $\infty$ ，称为持续式任务，其总汇报也可能跟是无穷大，为了解决这个问题，我们可以引入一个折扣率来降低远期汇报的权重，折扣汇报定义为：
$G(\tau)=\sum_{t=0}^{T-1}\gamma^{t}r_{t+1}$
其中， $\gamma \in [0,1]$ 是折扣率，当 $\gamma$ 接近 $0$ 时候，智能体更在意短期回报，而当 $\gamma$ 接近于 $1$ 时候，长期汇报变得更重要。

4.1.4.2 目标函数

因为策略和状态转移都有一定的随机性，所以每次实验得到的轨迹是一个随机序列，其收获的总汇报也不一样。强化学习的目标是学习到一个策略 $\pi_\theta(a|s)$ 来最大化期望回报(Expected Return)，即希望智能体执行一系列的动作来获得尽可能的平均汇报。

强化学习的目标函数为：
$J(\theta)=E_{\tau\sim p_{\theta}(\tau)}[G(\tau)]=E_{\tau\sim p_{\theta}(\tau)}\sum_{t=0}^{T-1}\gamma^{t}r_{t+1}$
其中 $\theta$ 为策略函数的参数。

4.1.5 值函数

为了评估策略 $\pi$ 的期望回报，我们定义两个值函数：状态值函数和状态-动作值函数。

4.1.5.1 状态值函数

策略 $\pi$ 的期望回报可以分解为：

相当于全概率公式，将状态 $s$ 的情况拿出来算期望，然后再把所有 $s$ 情况的期望加在一起，结果和原来一样

$\begin{aligned} E_{\tau\sim p_(\tau)}[G(\tau)]&=E_{\tau\sim p_(\tau)}\sum_{t=0}^{T-1}\gamma^{t}r_{t+1}\\ &=E_{s\sim p(s_0)}[E_{\tau\sim p_(\tau)}[\sum_{t=0}^{T-1}\gamma^{t}r_{t+1}|\tau_{s_0}=s]]\\ &=E_{s\sim p(s_0)}[V^{\pi}(s)] \end{aligned}$

其中 $V^{\pi}(s)$ 称为状态值函数，表示从状态 $s$ 开始，执行策略 $\pi$ 后得到的期望总回报
$V^{\pi}(s)=E_{\tau\sim p_(\tau)}[\sum_{t=0}^{T-1}\gamma^{t}r_{t+1}|\tau_{s_0}=s]$

其中， $\tau_{s_0}$ 表示轨迹 $\tau$ 的起始状态。

为了方便起见，我们用 $\tau_{0:T}$ 表示轨迹 $s_0,a_0,s_1,a_1,...s_T$ ，用 $\tau_{1:T}$ 表示轨迹 $s_1,a_1,...s_T$ ，因此有
$\tau_{0:T}=s_0,a_0,\tau_{1:T}$
因此，

下一个时刻的轨迹为从某个初始的状态出发，执行动作后的期望（概率为策略 $\pi$ ），乘以在初始状态和动作情况下转移到新状态的期望（概率为 $p$ ），最后乘以新轨迹的概率 $p$

$E_{\tau_{0:T} \sim p(\tau)}=E_{a\sim \pi(a|s)}E_{s'\sim p(s'|s,a)}E_{\tau_{1:T}\sim p(\tau)}$

根据马尔可夫性质， $V^{\pi}(s)$ 可以展开得到：
$\begin{aligned} V^{\pi}(s)&=E_{\tau_{0:T} \sim p(\tau)}[r_1+\gamma\sum_{i=1}^{T-1}\gamma^{t-1}|\tau_{s_0}=s] \\ &=E_{a\sim \pi(a|s)}E_{s'\sim p(s'|s,a)}E_{\tau_{1:T}\sim p(\tau)}[r(s,a,s')+\gamma\sum_{i=1}^{T-1}\gamma^{t-1}|\tau_{s_0}=s'] \\ &=E_{a\sim \pi(a|s)}E_{s'\sim p(s'|s,a)}[r(s,a,s')+\gamma E_{\tau_{1:T}\sim p(\tau)}[\sum_{i=1}^{T-1}\gamma^{t-1}|\tau_{s_0}=s']] \\ &=E_{a\sim \pi(a|s)}E_{s'\sim p(s'|s,a)}[r(s,a,s')+\gamma V^{\pi}(s’)] \\ &=E_{a\sim \pi(a|s)}Q^{\pi}(s,a) \end{aligned}$

贝尔曼方程 $V^{\pi}(s)=E_{a\sim \pi(a|s)}E_{s'\sim p(s'|s,a)}[r(s,a,s')+\gamma V^{\pi}(s’)]$

表示当前状态的值函数可以通过下个状态的值函数来计算。

如果给定了策略 $\pi(a|s)$ ，状态转移概率 $p (s^{'} ∣ s, a)$ 和奖励 $r (s, a, s^{'})$ ，我们就可以通过迭代的方式来计算 $V^{\pi}(s)$ ，由于存在一定的折扣率，迭代一定步数后，每个状态的值函数就会越来越小，直到固定不变。

4.1.5.2 状态-动作值函数

公式中的第二个期望是指从初始状态为 $s$ 执行动作 $a$ ，然后执行策略 $\pi$ 得到的总回报，称为状态-动作值函数

表示当前状态的值函数可以通过下个状态的值函数来计算。

如果给定了策略 $\pi(a|s)$ ，状态转移概率 $p (s^{'} ∣ s, a)$ 和奖励 $r (s, a, s^{'})$ ，我们就可以通过迭代的方式来计算 $V^{\pi}(s)$ ，由于存在一定的折扣率，迭代一定步数后，每个状态的值函数就会越来越小，直到固定不变。

公式中的第二个期望是指从初始状态为 $s$ 执行动作 $a$ ，然后执行策略 $\pi$ 得到的总回报，称为状态-动作值函数，也称为Q函数
$Q^{\pi}(s,a)=E_{s'\sim p(s'|s,a)}[r(s,a,s')+\gamma V^{\pi}(s')]$
状态值函数 $V^{\pi}(s)$ 是 $Q$ 函数 $Q^{\pi}(s,a)$ 关于动作 $a$ 的期望，即：
$V^{\pi}(s)=E_{a\sim \pi(a|s)}Q^{\pi}(s,a)$
同理来推导 $Q$ 函数的迭代公式：
$\begin{aligned} Q^{\pi}(s,a)&=E_{s'\sim p(s'|s,a)}[r(s,a,s')+\gamma V^{\pi}(s')] \\ &=E_{s'\sim p(s'|s,a)}[r(s,a,s')+\gamma E_{a'\sim \pi(a'|s')}Q^{\pi}(s',a')] \\ \end{aligned}$

Q值的贝尔曼方程 $Q^{\pi}(s,a)=E_{s'\sim p(s'|s,a)}[r(s,a,s')+\gamma E_{a'\sim \pi(a'|s')}Q^{\pi}(s',a')]$

4.1.5.3 值函数的作用

值函数可以看作对策略 $\pi$ 的评估，因此我们就可以根据值函数来优化策略。假设在状态 $s$ ，有一个动作 $a^*$ ，使得 $Q^{\pi}(s,a^*)>v^{\pi}(s)$ ，即执行动作 $a^*$ 的回报，大于期望值，比当前的策略 $\pi(a|s)$ 要高，我们就可以调整参数，使得策略中动作 $a^*$ 的概率 $p(a^*|s)$ 增加。

	状态值函数 $V^{\pi}(s)$	状态-动作值函数 $Q^{\pi}(s,a)$
含义	从状态 $s$ 开始，执行策略 $\pi$ 后得到的期望总回报	从初始状态为 $s$ 执行动作 $a$ ，然后执行策略 $\pi$ 得到的总回报
计算公式	$V^{\pi}(s)=E_{\tau\sim p_(\tau)}[\sum_{t=0}^{T-1}\gamma^{t}r_{t+1}\mid\tau_{s_0}=s]$	$Q^{\pi}(s,a)=E_{s'\sim p(s'\mid s,a)}[r(s,a,s')+\gamma V^{\pi}(s')]$
贝尔曼	$V^{\pi}(s)=E_{a\sim \pi(a \mid s)}E_{s'\sim p(s'\mid s,a)}[r(s,a,s')+\gamma V^{\pi}(s’)]$	$Q^{\pi}(s,a)=E_{s'\sim p(s'\mid s,a)}[r(s,a,s')+\gamma E_{a'\sim \pi(a'\mid s')}Q^{\pi}(s',a')]$
关系	状态值函数 $V^{\pi}(s)$ 是 $Q$ 函数 $Q^{\pi}(s,a)$ 关于动作 $a$ 的期望	$V^{\pi}(s)=E_{a\sim \pi(a\mid s)}Q^{\pi}(s,a)$

在这里插入图片描述

4.1.6 深度强化学习

在强化学习中，一般需要建模策略 $\pi(a|s)$ 和值函数 $V^\pi(s),Q^\pi(s)$ 。早期的强化学习算法主要关注状态和动作都是离散且有限的问题。

在强化学习中，一般需要建模策略 $\pi(a|s)$ 和值函数 $V^\pi(s),Q^\pi(s)$ 。早期的强化学习算法主要关注状态和动作都是离散且有限的问题。但在很多实际问题中，有些任务的状态和动作的数量非常多，如在自动驾驶中，智能体感知到的环境状态是各种传感器数据，一般都是连续的，动作是操作方向盘的方向和速度，也是连续的。

为了有效地解决这些问题，我们可以设计一个更强的策略函数，如深度神经网络，使得智能体可以应对复杂的环境，学习更优的策略，并由更好的泛化能力。

深度强化学习是将强化学习和深度学习结合在一起，其中：

强化学习：定义问题和优化目标
深度学习：解决策略和值函数的建模，并用误差反向传播来优化目标函数

蛋总的快乐生活

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
[强化学习二]强化学习的基本概念

文章目录4 强化学习4.1 强化学习问题4.1.1 典型例子4.1.2 强化学习的定义4.1.3 马尔可夫决策过程4.1.4 强化学习的目标函数4.1.4.1 总回报4.1.4.2 目标函数4.1.5 值函数4.1.5.1 状态值函数4.1.5.2 状态-动作值函数4.1.5.3 值函数的作用4.1.6 深度强化学习4 强化学习4.1 强化学习问题4.1.1 典型例子K臂赌博机问题悬崖行走问题4.1.2 强化学习的定义在强化学习中，有两个可以交互的对象：智能体和环境(1)智能体可以感知外
复制链接

扫一扫