【强化学习论文解读 2】 Theory and application to reward shaping

ReEchooo

已于 2022-02-24 09:31:23 修改

阅读量927

点赞数

分类专栏：强化学习与机器人控制论文解读文章标签：人工智能

于 2021-11-10 20:04:22 首次发布

本文链接：https://blog.csdn.net/qq_41773233/article/details/121244391

版权

强化学习与机器人控制论文解读专栏收录该内容

4 篇文章 18 订阅

订阅专栏

【强化学习论文解读 2】 Theory and application to reward shaping

1. 引言
2. 论文解读
3. 总结

1. 引言

本文介绍一篇1999年发表在ICML的文章：Policy invariance under reward transformations: Theory and application to reward shaping。论文的作者是大家非常熟悉的吴恩达（Andrew Ng）老师。

论文传送门：Policy invariance under reward transformations: Theory and application to reward shaping

论文的亮点是：给出了reward shaping（奖励塑造）的充分必要条件，即：对奖励做何种修改不会改变MDP（马尔科夫决策过程）的最优策略。

2. 论文解读

2.1 背景

在连续决策问题中，给定奖励函数和环境模型，那么最优策略是确定的。一个很自然的问题是：我们能够对奖励函数做怎样的修改能够保证最优策略是不变的呢？ 因为一个好的奖励函数能够加快策略收敛速度，所以我们想知道我们能对它修改的“自由”是多少？

在utility theory领域（主要研究单步决策）中，有学者给出了对于utility function的相应问题的答案，那就是：对于没有不确定性的单步决策，utilities上的任何单调变换都使最优决策保持不变；对于有不确定性的单步决策，只有正线性变换才能保持最优决策不变。

在改变reward function的情况下，对于连续决策问题的策略不变性还没有人研究。

这个问题是非常重要的，因为在强化学习问题中，我们常常为了加快收敛速度会设置一些“引导性”的奖励，如果这些奖励设置地不好，很可能会导致最优策略发生改变。

2.2 预备知识

在证明之前，我们需要些预备知识。首先来看符号定义。

Markov decision process (MDP) 记作 $\gamma, R)$

其中： $S$ 是有限状态集； $A=\left\{a_{1}, \ldots, a_{k}\right\}$ 是动作集（ $\geq 2$ ）； $T=\left\{P_{s a}(\cdot) \mid s \in S, a \in A\right\}$ 是下一状态转移概率, $P_{s a}\left(s^{\prime}\right)$ 是在状态 $s$ 下采取动作 $a$ 得到状态 $s^{\prime}$ 的概率； $\gamma \in(0,1]$ 是折扣因子; $R$ 代表奖励分布。

为了简化问题，作者将奖励 $R$ 都假定为确定性的，即为有界实值函数。将奖励函数 $R$ 写作： $R\left(s, a, s^{\prime}\right)$ ，即：映射关系为 $\times A \times S \mapsto \mathbb{R}$

在一个MDP问题 $M$ 下，执行策略 $\pi$ 得到的价值函数函数记为： $V_{M}^{\pi}$ . $V_{M}^{\pi}(s)=\mathrm{E}\left[r_{1}+\right.$ $\left.\gamma r_{2}+\gamma^{2} r_{3}+\ldots ; \pi, s\right]$ , 代表其在状态 $s$ 下的价值。

Q函数（即动作价值函数）为：
在这里插入图片描述

对于MDP问题M而言，最优状态价值函数记作 $V_{M}^{*}(s)=\sup _{\pi} V_{M}^{\pi}(s)$ ，最优动作价值函数记作 $Q_{M}^{*}(s, a)=\sup _{\pi} Q_{M}^{\pi}(s, a) .$ 最优策略为 $\pi_{M}^{*}(s)=\arg \max _{a \in A} Q_{M}^{*}(s, a) .$ 当然，最优策略可能不唯一，只要所有的动作 $a$ 满足 $\arg \max _{a \in A} Q_{M}^{*}(s, a)$ 就是最优策略。后续为了推导公式的简便，可能会直接扔掉下标“M”

2.3 Reward shaping的充分必要条件

假设原MDP问题为： $\gamma, R)$ ，reward shaping后的MDP问题为： $M^{\prime}=\left(S, A, T, \gamma, R^{\prime}\right)$ ，其中 $R^{\prime}=R+F$ ， $F$ 和 $R$ 一样，是个有界实值函数，称为shaping reward function，映射关系为 $\times A \times S \mapsto \mathbb{R}$ （后面证明可以知道，其实 $F$ 只是个关于状态 $s$ 和状态 $s^{'}$ 的函数）

$F\left(s, a, s^{\prime}\right)$ 是我们比较喜欢动手脚的地方，比如：如果为了鼓励agent接近一个目标，那么就设置当状态 $s^{\prime}$ 比状态 $s$ 更靠近目标时， $F\left(s, a, s^{\prime}\right)$ 为一个正数，反之则为一个负数；再比如：如果为了鼓励agent在某个状态 $S_0$ 下采取动作 $a_1$ ，那么只要令 $F\left(s, a, s^{\prime}\right)$ 在采取动作 $a_1$ 时为一个正数，其他动作时为0即可。

首先，考虑一个环形状态转移情况，即： $s_{1} \rightarrow s_{2} \rightarrow \cdots \rightarrow s_{n} \rightarrow s_{1} \rightarrow \cdots$ , 如果shaping reward $F$ 产生了净收益 $\left(F\left(s_{1}, a_{1}, s_{2}\right)+\cdots+\right.$ $\left.F\left(s_{n-1}, a_{n-1}, s_{n}\right)+F\left(s_{n}, a_{n}, s_{1}\right)>0\right)$ ，那么agent会被这个 $F$ 奖励“分心”，可能导致不断地“转圈刷分”。

基于这点观察，大致可以猜到 $F$ 应该要是个势能差的形式，即： $F\left(s, a, s^{\prime}\right)=\Phi\left(s^{\prime}\right)-\Phi(s)$ ，其中 $\Phi(s)$ 是状态 $s$ 的函数（即类似于物理学中的势能含义），这样才能避免“转圈刷分”的情况出现。当然 $F\left(s, a, s^{\prime}\right)=\Phi\left(s^{\prime}\right)-\Phi(s)$ 只是针对折扣因子 $\gamma=1$ 的情况；对于 $\gamma<1$ 的情况， $F\left(s, a, s^{\prime}\right)=\gamma\Phi\left(s^{\prime}\right)-\Phi(s)$ ，至于为什么是这个形式，就是通过理论推导得到的。

以下定理给出了shaping reward function $F$ 在不改变最优策略情况下的充分必要条件（红框部分是定理的充分性和必要性的转述），其中 $s_0$ 表示吸收态，也就是强化学习中的终态：
在这里插入图片描述

充分性说明了，如果在给奖励函数 $R$ 添加了一个基于势能的函数 $F\left(s, a, s^{\prime}\right)=\gamma\Phi\left(s^{\prime}\right)-\Phi(s)$ ，那么最优策略保持不变；必要性说明了，如果在没有状态转移 $T$ 和奖励 $R$ 的先验知识，那么想要不改变最优策略，我们只能选择基于势能的函数 $F$ 。（如果我们有非常丰富的状态转移 $T$ 和奖励 $R$ 的先验知识，那么可以选择其它种类的shaping function，不一定要是基于势能的形式）

此定理重要的是： $\Phi(s)$ 可以作为人类专家知识的入口，只要 $\Phi(s)$ 选得好，那么能大幅加快强化学习的训练。

下面对充分性和必要性的证明做一个简单的论述，有一些细枝末节的地方没有展开，严谨论证请直接参考原论文。

充分性证明：

我们已知最优Q函数满足bellman方程：
在这里插入图片描述
通过简单的加减变换操作，得到：

不妨定义：
在这里插入图片描述
再把 $F$ 的定义式 $F\left(s, a, s^{\prime}\right)=\gamma\Phi\left(s^{\prime}\right)-\Phi(s)$ 代入变换后的方程，得到：

在这里插入图片描述

而此方程就是reward shaping后的MDP问题 $M^{'}$ 的bellman方程。 $M^{'}$ 的最优Q函数就是 $Q_{M^{\prime}}^{*}(s, a)=\hat{Q}_{M^{\prime}}(s, a)=Q_{M}^{*}(s, a)-\Phi(s)$

那么 $M^{\prime}$ 的最优策略 $\pi_{M^{\prime}}^{*}(s)$ 为：

在这里插入图片描述
可以看到，由于 $\Phi(s)$ 仅是状态 $s$ 的函数，与动作无关，故 $M^{\prime}$ 的最优策略与 $M$ 的最优策略完全一致，充分性证毕。

必要性证明：

首先看一个引理：如果说reward shaping函数 $F (s, a, s^{'})$ 的值与动作有关，那么一定存在转移函数 $T$ 和奖励函数 $R$ ，使得在 $M$ 中的最优策略放在 $M^{'}$ 中不是最优。（这里只要举一个例子即可）

证明过程如下：
在这里插入图片描述

接着下面进一步地证明 $F (s, a, s^{'})$ 不仅与动作无关，而且 $F\left(s, a, s^{\prime}\right)=\gamma\Phi\left(s^{\prime}\right)-\Phi(s)$ 。如果 $F (s, a, s^{'})$ 不是这样，那么最优策略就会改变。（这部分证明，我感觉按照作者的证明思路， $F\left(s, a, s^{\prime}\right)=k(\gamma\Phi\left(s^{\prime}\right)-\Phi(s))$ 同样满足证明过程， $k$ 可以是任意实数，也许是作者想要强制保证 $\Phi(s)$ 前的系数为-1，这样把 $k$ 吸收到 $\Phi(·)$ 中，就得到了作者的式子）

证明的主要思路就是构造一个例子，即 $F\left(s, s^{\prime}\right) \neq \gamma\Phi\left(s^{\prime}\right)-\Phi(s)$ 时，必会存在在 $M$ 中的最优策略放在 $M^{'}$ 中不是最优。

证明过程如下：
在这里插入图片描述

2.4 相关推论

根据定理1的充分性证明过程，可得推论：

在这里插入图片描述

推论说的是，如果奖励塑造的过程中，使用的是 $F\left(s, a, s^{\prime}\right)=\gamma\Phi\left(s^{\prime}\right)-\Phi(s)$ 的形式，去加在奖励函数上，那么是不会改变最优动作价值函数 $Q_{M^{\prime}}^{*}(s, a)$ 和最优状态价值函数 $V_{M^{\prime}}^{*}(s)$ 。最优动作价值函数不改变是通过充分性的证明过程得到的，而最优状态价值函数不改变是因为有等式： $V^{*}(s)=$ $\max _{a \in A} Q^{*}(s, a)$ 。

对于此推论，作者做了两个备注。

备注一：鲁棒性。即：不仅仅是对最优策略，对任意策略 $\pi$ ，推论2中的恒等式都是成立的。如果一个策略 $\pi$ ，在 $M^{'}$ 中接近最优了，那么此策略在 $M$ 中也会接近最优，这也就意味着基于势能的reward shaping还具备鲁棒性。

原文表述如下：
在这里插入图片描述

备注二：若奖励函数设为势能差，那么所有策略均最优。即：如果我们把奖励函数 $R$ 设为势能差的形式： $R\left(s, a, s^{\prime}\right)=\gamma\Phi\left(s^{\prime}\right)-\Phi(s)$ ，那么显然这个奖励函数没有任何实质性的对动作的偏向，这就会导致不管什么策略，算出来都会是最优策略。

原文表述如下：

在这里插入图片描述

作者还说道：对于半马尔可夫决策过程（动作需要不同的时间去执行），可以令 $F\left(s, a, s^{\prime}, \tau\right)=$ $e^{-\beta \tau} \Phi\left(s^{\prime}\right)-\Phi(s)$ ，其中 $\tau$ 是动作完成的时间， $\beta$ 是折扣率。

3. 总结

对于我们没有状态转移 $T$ 和奖励 $R$ 的先验知识的情况（这是我们model-free方法经常遇到的情况），那么想要通过改变奖励函数 $R (s, a, s^{'})$ 来加快强化学习收敛，只能令新的奖励函数为 $R^{'} (s, a, s^{'}) = R (s, a, s^{'}) + F (s, s^{'})$ ，其中 $F(s,s')=\gamma\Phi\left(s^{\prime}\right)-\Phi(s)$ ，而 $\Phi(s)$ 是与状态有关的函数即可，这样才不会改变最优策略。

对于 $\Phi(s)$ 的构造，推荐使用基于距离的启发式（a distance-based heuristic），或者基于子目标的启发式（a subgoal-based heuristic）。

注：虽然原文写的是 $F (s, a, s^{'})$ ，但是写成 $F (s, s^{'})$ 也是一样的，因为和动作 $a$ 无关。

ReEchooo

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【强化学习论文解读 2】 Theory and application to reward shaping

【强化学习论文解读 2】 Theory and application to reward shaping1. 引言2. 论文解读2.1 背景2.2 预备知识2.3 Reward shaping的充分必要条件2.4 相关推论3. 总结1. 引言本文介绍一篇1999年发表在ICML的文章：Policy invariance under reward transformations: Theory and application to reward shaping。论文的作者是大家非常熟悉的吴恩达（Andr
复制链接

扫一扫

专栏目录