CS294-112: Introduction to Reinforcement Learning

最新推荐文章于 2023-01-01 18:51:35 发布

无聊的人生事无聊

最新推荐文章于 2023-01-01 18:51:35 发布

阅读量203

点赞数

分类专栏：信息科学文章标签：强化学习

本文链接：https://blog.csdn.net/wangpeiyi9979/article/details/101059891

版权

信息科学专栏收录该内容

159 篇文章 1 订阅

订阅专栏

文章目录

一、定义
二、强化学习算法
三、Q函数与V函数
四、总结
五、参考文献

一、定义

我们已经知道，如果有足够的数据，那么我们可以进行模仿学习。但是，如果数据不足或者我们想引入目的性，我们就可以通过引入奖励函数，来指导Agent的行为.

1、马尔可夫决策过程

关于Agent的序列行为与环境状态的相关变化，我们可以形式化地使用(马尔可夫决策过程)Markov decision process进行描述.

定义一：马尔可夫决策过程

马尔可夫决策过程是一个四元组:
$\mathcal{M}=\{\mathcal{S},\mathcal{A},\mathcal{T}, r\}$
其中:

$\mathcal{S}:$ 表示状态的集合。(状态反映的是客观世界)
$\mathcal{A}:$ 表示行动的集合。
$\mathcal{T}:$ 转移算子。(一个条件概率的Tensor)
$r$ :奖励函数. ( $\mathcal{S} \times \mathcal{A} \to \mathcal{R})$

在这里插入图片描述

2、部分马尔可夫决策过程

有时候，如同前文所说的，一些时候，我们无法得到客观世界的状态，而只能得到观测。因此，我们使用(部分马尔可夫决策过程)partially pbserved Markov decision process描述该过程:

定义二：部分马尔可夫决策过程
部分马尔科夫决策过程是一个六元组

$\mathcal{M} = \{\mathcal{S}, \mathcal{A}, \mathcal{O}, \mathcal{T}, \mathcal{\epsilon}, r \}$

其中:

$\mathcal{S}:$ 表示状态的集合。(状态反映的是客观世界)
$\mathcal{A}:$ 表示行动的集合。
$\mathcal{O}:$ 表示观测的集合。
$\mathcal{T}:$ 转移算子。(一个条件概率的Tensor)
$\mathcal{\epsilon}:$ 发射概率，即 $p(o_t|s_t)$
$r$ :奖励函数. ( $\mathcal{S} \times \mathcal{A} \to \mathcal{R})$

3、强化学习的目的

有了(部分)马尔科夫过程的形式化定义，我们就能够形式化地定义强化学习的目的了。先来看看强化学习的过程：

在这里插入图片描述
首先Agent根据策略 $\pi_{\theta}(a|s)$ 产生行动 $a$ , 然后当前状态 $s$ 和行动 $a$ 共同产下一状态 $s^{'}$ . 然后重复该过程。

强化学习的整个过程其实就是一个多了策略 $\pi_{\theta}(a|s)$ 的马尔科夫决策过程，这一过程可以形式化定义为:
$p_{\theta}(s_1,a_1,...,s_T, a_T)=p(s_1)\Pi_{t=1}^T\pi_{\theta}(a_t|s_t)p(s_{t+1}|s_t, a_t)$
在这里插入图片描述
强化学习是希望Agent能够学习到好的策略 $\pi_{\theta}(a|s)$

如何衡量策略的好坏呢？应该结合奖励函数以及由该策略产生的状态和行动序列来衡量。由此，我们得到强化学习的目的:

$\theta^*=arg \max_{\theta}E_{\tau \sim p_{\theta}(\tau)}[\sum_tr(s_t,a_t)]$

即学习到最优的参数 $\theta^*$ , 从而得到最优策略 $\pi_{\theta^*}(a|s)$ ，使得序列的总奖励期望最高，其中 $\tau=(s_1, a_1, ..., s_T, a_T)$ 为状态行动序列.

4、简化表示

对联合概率进行边缘化，我们有 $\theta^*=arg \max_{\theta}E_{\tau \sim p_{\theta}(\tau)}[\sum_tr(s_t,a_t)] =arg \max_{\theta} \sum_{t=1}^TE_{(s_t, a_t) \sim p_{\theta}(s_t, a_t)}[r(s_t, a_t)]$ .

即将其简化表示为各时间步的状态和行为的奖励期望之和。我们再对概率图模型进行简单变化:
在这里插入图片描述
这就相当于一个由转移概率 $p((s_{t+1}, a_{t+1})|(s_t,a_t))$ 决定的马尔科夫链，熟悉MAMC采样的同学肯定知道，基本所有的马尔科夫链会有一个平稳分布，且平稳分布唯一。因此，当 $\to \infty$ 时，我们用下式表示强化学习的目的:
在这里插入图片描述

5、在意期望

特别值得注意的是，在强化学习中，我们在意的是奖励函数的期望，而不是奖励函数本身，因为期望是平滑的，平滑的性质使得我们能够采取梯度下降等方法进行学习。比如下方情形:
在这里插入图片描述
小车左转奖励为1，右转奖励为-1。如果专注奖励函数本身，那么它是离散的，不可微的。但是其期望 $E(r)=-\theta+(1-\theta)=-2\theta+1$ . 是可微的。

二、强化学习算法

1、算法模块总览

强化学习可以分为多类算法。具体的，有(1)不基于模型的算法. (2)基于模型的算法.

而不基于模型的算法又可分为(1)基于价值的算法。(2)基于策略的算法。

无论是怎样的算法，他们的结构都可以下方的三个模块表示:

在这里插入图片描述

2、无模型、基于价值的算法

无模型，基于价值的算法可以由下图表示:

其在黄色框根据策略 $\pi_{\theta}(a|s)$ 以及转移算子 $p (s^{'} ∣ s, a)$ 采样，生成多条未来可能的行动和状态序列。绿色框只是简单计算所有序列的奖励期望。蓝色框使用梯度下降更新策略。然后重复该过程。这样的方法也叫作policy gradients.

3、有模型的算法

无模型、基于策略的算法可以由下图表示:

在这里插入图片描述
其在黄色框根据策略 $\pi_{\theta}(a_t|s_t)$ 采样该时间Agent应该采取的行动。然后在绿色框计算得到 $s_{t+1}$ , 最后在蓝色框进行梯度下降更新策略。

各种算法各有优劣，还是需要看实际的情况。具体如何选择，这里就不赘述了。

三、Q函数与V函数

1、Q函数

先来看我们最终的强化学习的目标函数:

$\sum_{t=1}^TE_{(s_t, a_t) \sim p_{\theta}(s_t, a_t)}[r(s_t, a_t)]$

改写该式:
在这里插入图片描述

我们定义Q函数为:

在这里插入图片描述
也可写为:

其含义为: 从状态 $s_1$ 和行为 $a_1$ 开始的所有奖励和。

2、V函数

当然，我们也可以定义从状态 $s_1$ 开始的所有奖励和，即V函数：
在这里插入图片描述

3、Q函数与V函数的使用

(1) 当我们知道Q函数时，我们可以通过Q函数提高我们的策略。即:
在这里插入图片描述
(2) 当我们知道V函数和Q函数时，由两个函数的定义，我们可以通过两者大小关系修改策略，即使得:

四、总结

最后用一张图总结深度强化学习的类别，笔者还未弄明白，先记下来吧：
在这里插入图片描述

五、参考文献

无聊的人生事无聊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CS294-112: Introduction to Reinforcement Learning

文章目录一、定义一、定义我们已经知道，如果有足够的数据，那么我们进行模仿学习。但是，如果数据不足或者我们想引入目的性，我们就可以通过引入奖励函数，来指导Agent的行为.关于Agent的序列决策行为与环境的相关变化，我们可以形式化地使用(马尔可夫决策过程)Markov decision process进行定义.定义一：马尔可夫决策过程马尔可夫决策过程是一个四元组:M={S,A,T,r}...
复制链接

扫一扫