State Abstaction:面向MDP的统一状态抽象理论

最新推荐文章于 2025-03-12 16:33:23 发布

码丽莲梦露

最新推荐文章于 2025-03-12 16:33:23 发布

阅读量594

点赞数 5

分类专栏： # 强化学习论文阅读与实现文章标签：动态规划算法强化学习马尔可夫过程

本文链接：https://blog.csdn.net/crazy_girl_me/article/details/121114552

版权

论文阅读与实现同时被 2 个专栏收录

39 篇文章

订阅专栏

强化学习

26 篇文章

订阅专栏

《Towards a UnifIed Theory of State Abstraction for MDPs》

LIhong Li Thomas J.Walsh Michael L.Littman

获取原文的链接http://rbr.cs.umass.edu/aimath06/proceedings/P21.pdfhttp://rbr.cs.umass.edu/aimath06/proceedings/P21.pdf

1 摘要

状态抽象(或状态聚合（state aggregation）)在人工智能和运筹学领域得到了广泛的研究。相对于在基态空间中工作，决策者通常在抽象的状态空间中更快地找到解决方案，方法是通过忽略无关的状态信息，将状态组视为一个单元。在强化学习和规划的文献中已经提出和研究了许多抽象概念，并得出了积极和消极的结果。我们为马尔可夫决策过程提供了状态抽象的统一处理。我们研究了五种特定的抽象方案，其中一些在过去以不同的形式提出，并分析了它们对规划和学习的可用性。

2 介绍

作为一种加速决策的技术，状态抽象(或状态聚合)在人工智能和运筹学中得到了广泛的研究。抽象可以被认为是一个将基础表示(问题的原始描述)映射到抽象表示(更紧凑、更易于使用的过程。换句话说，抽象使决策者能够从相关信息中区分出相关信息。从计算的角度来看，状态抽象是一种使学习和规划算法在大型、真实世界问题中变得实用的技术。

在本文中，我们将重点研究马尔可夫决策过程中的状态抽象，其中已经提出了不同类型的抽象，包括互模拟、同态、有用判别和策略无关。鉴于选择的多样性，自然会出现如下问题：

（1）状态抽象有统一的定义吗？

（2）这些抽象之间有什么关系？

（3）抽象MDP的解决方案与基础MDP有何关系？我们可以做些什么保证呢？

（4）我们如何在抽象方案中进行选择？

由于不同类型的抽象都是独立开发的，所以还没有统一的处理方法。虽然有状态抽象的估计和边界近似误差的结果，但我们寻求回答定性问题，如“当应用抽象时丢失了什么信息?”以及“最佳政策何时仍保留?”事实上，在使用状态抽象时，缺乏对状态抽象的定性洞察可能会导致负面结果。

这篇论文的主要贡献是对状态抽象的一般处理，它统一了许多以前的工作。专注于抽象理论本身，包括形式定义、关系和定性属性(如保持最优性和可学习性)。

3 状态抽象理论

我们采纳了Giunchiglia和Walsh[10]的观点，他们认为当保留某些属性时，抽象是从一个问题表示到一个新表示的一般映射(a mapping from one problem representation to a new representation, while preserving some properties）。

[10] Fausto Giunchiglia and Toby Walsh. A theory of abstraction.Artificial Intelligence, 57(2–
3):323–390, 1992.

这篇文章关注的是保存代理做出导致最优行为的决策所需的属性。

3.1 状态抽象的一般表示

于是状态转移和奖励函数可以定义为：

于是，通过判断对任意动作a下的所有抽象状态的抽象状态转移分布之和是否等于1即可判断是否定义好了下一状态的分布：

其中，w(s)可以看作度量状态对抽象状态φ(s)的贡献程度。

3.2 抽象的拓扑空间

这个小节中，我们关注这些抽象是如何相互关联的问题。设ΦM为抽象空间——MDP上的抽象集。我们需要下面的定义。

从定义1和2可以明显看出 $\geq$ 满足反身性、反对称性和传递性。因此，我们得到如下定理。

定理1：the finer relation $\geq$ is a partial ordering.

换句话说，如果我们描述抽象空间ΦM的拓扑结构，我们将得到一个在每个节点上都有自循环的有向无环图(DAG);每个边缘点从一个抽象Φ1到另一个抽象Φ2。最后是最好的表示(基本表示)，我们表示Φ0(Φ0是恒等映射，¯S=S)，在另一个极端是最粗糙的表示(由单个抽象状态组成的空表示)。

3.3 抽象的5种类型

对于MDP有许多抽象，因为有许多可能的方法来划分状态空间。然而，并不是所有的抽象都是同等重要的。一个有用的抽象必须保留一些对解决原始MDP至关重要的信息。

其中，1中 Φmodel保留的一步模型（如互模拟）；2中ΦQΠ为所有策略保留State-Action值函数；3中ΦQ*保留最优状态-动作值函数；4中Φa*保留最优动作的值函数；5中ΦΠ*尝试保留最优动作的值函数。

3.4 抽象的属性

在上一小节中，我们介绍了状态抽象的集合。下面我们将正式研究它们的性质。

第一个问题是抽象如何相互关联。定理2表面，他们在偏序（partial order ） $\geq$ 下形成链。

因此，这五个抽象中的任何一个都是其他更精细抽象的特例。

第二个问题与规划有关。给定一个抽象的MDP $\overline{M}$ ，我们可以使用标准的动态规划算法，如值迭代和策略迭代来解决它，获得一个最优的抽象策略 $\overline{\pi *}$ 。用什么抽象方法保证在基本MDP M中 $\overline{\pi *}$ 是最优的?

我们得到了以下结论:

最后，我们考虑了学习问题，其中Agent根据经验估计最优值函数。在抽象的情况下，QLearning需要进行一些修改。在观察到转换(st、at、rt、st+1)之后，代理在抽象状态空间中执行以下操作进行备份：

于是，我们得到了关于Q-learning的以下结论：

与无模型强化学习(例如，Q学习)相比，强化学习是基于模型的学习(例如，优先扫描[19])，其中Agent首先通过交互经验建立一个经验模型来近似MDP，然后求解该模型。在状态抽象的上下文中，代理首先建立M的经验抽象模型，然后求解π∗，然后将其转换回基本策略。对于这样一类学习算法，我们得到了以下结论：

3.5 Necessary Conditions for Locally Checkable Abstraction

由于φa∗是定理5中列出的最粗的抽象函数，其足以在基于模型的设置中收敛到在基本φ中也是最优的策略，因此可以推测定义∗的条件对于该保证是否也是必要的。这让人回想起麦卡勒姆提出的一个公开问题：效用区分(他对φa∗的实例化)是否是保持最优策略的充要条件。在有限的意义上，我们发现答案是肯定的。我们定义了局部可检查抽象的集合，Φlc是那些只使用一步奖励和转移、一步可达状态的抽象类和两个候选态的最优Q函数值来决定这两个状态是否应该聚合的抽象。注意，Φlc包含定义3中定义的所有抽象函数。研究这个类，我们得出以下结论：

定理6源自这样一个事实，即使最优动作的Q值中的一个被改变，我们也可以按照图1(B)的精神构造恶意示例，其中新的Q值导致通向聚集状态的轨迹中的状态将次优动作提升到M中的最优性。

4 总结

我们引入了状态抽象的一般定义，并用它导出了几种自然类型的抽象的形式属性。给出许多抽象选择，一个重要的问题是：我们应该选择哪一个？从上面的分析可以看出，越来越粗略的抽象会丢失越来越多的关于问题(MDP)的信息。例如，φ模型提供了从本质上恢复整个模型的机会，而用φQ∗表示和学习最优状态-动作值函数是可能的。较粗的值函数(φa∗)不再保证值函数对于次优动作的可学习性，但允许规划(即，值迭代)。最后，在链条的最末端，即使是最优计划通常也会在φπ∗中丢失，尽管仍然可以表示最优策略。然而，较粗略的抽象会导致状态空间的较大缩减，这反过来又会转化为解决问题的效率。因此，在选择抽象时，需要在最小化信息损失和最大化状态空间约简之间进行权衡。