CS294-112: Introduction to Reinforcement Learning

最新推荐文章于 2024-05-31 14:52:23 发布

无聊的人生事无聊

最新推荐文章于 2024-05-31 14:52:23 发布

阅读量227

点赞数

分类专栏：信息科学文章标签：强化学习

本文链接：https://blog.csdn.net/Wangpeiyi9979/article/details/101059891

版权

信息科学专栏收录该内容

159 篇文章 1 订阅

订阅专栏

文章目录

一、定义
二、强化学习算法
三、Q函数与V函数
四、总结
五、参考文献

一、定义

我们已经知道，如果有足够的数据，那么我们可以进行模仿学习。但是，如果数据不足或者我们想引入目的性，我们就可以通过引入奖励函数，来指导Agent的行为.

1、马尔可夫决策过程

关于Agent的序列行为与环境状态的相关变化，我们可以形式化地使用(马尔可夫决策过程)Markov decision process进行描述.

定义一：马尔可夫决策过程

马尔可夫决策过程是一个四元组:
$\mathcal{M}=\{\mathcal{S},\mathcal{A},\mathcal{T}, r\}$
其中:

$\mathcal{S}:$ 表示状态的集合。(状态反映的是客观世界)
$\mathcal{A}:$ 表示行动的集合。
$\mathcal{T}:$ 转移算子。(一个条件概率的Tensor)
$r$ :奖励函数. ( $\mathcal{S} \times \mathcal{A} \to \mathcal{R})$

在这里插入图片描述

2、部分马尔可夫决策过程

有时候，如同前文所说的，一些时候，我们无法得到客观世界的状态，而只能得到观测。因此，我们使用(部分马尔可夫决策过程)partially pbserved Markov decision process描述该过程:

定义二：部分马尔可夫决策过程
部分马尔科夫决策过程是一个六元组

$\mathcal{M} = \{\mathcal{S}, \mathcal{A}, \mathcal{O}, \mathcal{T}, \mathcal{\epsilon}, r \}$

其中:

$\mathcal{S}:$ 表示状态的集合。(状态反映的是客观世界)
$\mathcal{A}:$ 表示行动的集合。
$\mathcal{O}:$ 表示观测的集合。
$\mathcal{T}:$ 转移算子。(一个条件概率的Tensor)
$\mathcal{\epsilon}:$ 发射概率，即 $p(o_t|s_t)$
$r$ :奖励函数. ( $\mathcal{S} \times \mathcal{A} \to \mathcal{R})$

3、强化学习的目的

有了(部分)马尔科夫过程的形式化定义，我们就能够形式化地定义强化学习的目的了。先来看看强化学习的过程：

在这里插入图片描述
首先Agent根据策略 $\pi_{\theta}(a|s)$ 产生行动 $a$ , 然后当前状态 $s$ 和行动 $a$ 共同产下一状态 $s^{'}$ . 然后重复该过程。

强化学习的整个过程其实就是一个多了策略 $\pi_{\theta}(a|s)$ 的马尔科夫决策过程，这一过程可以形式化定义为:
$p_{\theta}(s_1,a_1,...,s_T, a_T)=p(s_1)\Pi_{t=1}^T\pi_{\theta}(a_t|s_t)p(s_{t+1}|s_t, a_t)$
在这里插入图片描述
强化学习是希望Agent能够学习到好的策略 $\pi_{\theta}(a|s)$

如何衡量策略的好坏呢？应该结合奖励函数以及由该策略产生的状态和行动序列来衡量。由此，我们得到强化学习的目的:

$\theta^*=arg \max_{\theta}E_{\tau \sim p_{\theta}(\tau)}[\sum_tr(s_t,a_t)]$

即学习到最优的参数 $\theta^*$ , 从而得到最优策略 $\pi_{\theta^*}(a|s)$ ，使得序列的总奖励期望最高，其中 $\tau=(s_1, a_1, ..., s_T, a_T)$ 为状态行动序列.

4、简化表示

对联合概率进行边缘化，我们有 $\theta^*=arg \max_{\theta}E_{\tau \sim p_{\theta}(\tau)}[\sum_tr(s_t,a_t)] =arg \max_{\theta} \sum_{t=1}^TE_{(s_t, a_t) \sim p_{\theta}(s_t, a_t)}[r(s_t, a_t)]$ .

即将其简化表示为各时间步的状态和行为的奖励期望之和。我们再对概率图模型进行简单变化:
在这里插入图片描述
这就相当于一个由转移概率 $p((s_{t+1}, a_{t+1})|(s_t,a_t))$ 决定的马尔科夫链，熟悉MAMC采样的同学肯定知道，基本所有的马尔科夫链会有一个平稳分布，且平稳分布唯一。因此，当 $\to \infty$ 时，我们用下式表示强化学习的目的:
在这里插入图片描述

5、在意期望

特别值得注意的是，在强化学习中，我们在意的是奖励函数的期望，而不是奖励函数本身，因为期望是平滑的，平滑的性质使得我们能够采取梯度下降等方法进行学习。比如下方情形:
在这里插入图片描述
小车左转奖励为1，右转奖励为-1。如果专注奖励函数本身，那么它是离散的，不可微的。但是其期望 $E(r)=-\theta+(1-\theta)=-2\theta+1$ . 是可微的。

二、强化学习算法

1、算法模块总览

强化学习可以分为多类算法。具体的，有(1)不基于模型的算法. (2)基于模型的算法.

而不基于模型的算法又可分为(1)基于价值的算法。(2)基于策略的算法。

无论是怎样的算法，他们的结构都可以下方的三个模块表示:

在这里插入图片描述

2、无模型、基于价值的算法

无模型，基于价值的算法可以由下图表示:

其在黄色框根据策略 $\pi_{\theta}(a|s)$ 以及转移算子 $p (s^{'} ∣ s, a)$ 采样，生成多条未来可能的行动和状态序列。绿色框只是简单计算所有序列的奖励期望。蓝色框使用梯度下降更新策略。然后重复该过程。这样的方法也叫作policy gradients.