《Towards a UnifIed Theory of State Abstraction for MDPs》
LIhong Li Thomas J.Walsh Michael L.Littman
1 摘要
状态抽象(或状态聚合(state aggregation))在人工智能和运筹学领域得到了广泛的研究。相对于在基态空间中工作,决策者通常在抽象的状态空间中更快地找到解决方案,方法是通过忽略无关的状态信息,将状态组视为一个单元。在强化学习和规划的文献中已经提出和研究了许多抽象概念,并得出了积极和消极的结果。我们为马尔可夫决策过程提供了状态抽象的统一处理。我们研究了五种特定的抽象方案,其中一些在过去以不同的形式提出,并分析了它们对规划和学习的可用性。
2 介绍
作为一种加速决策的技术,状态抽象(或状态聚合)在人工智能和运筹学中得到了广泛的研究。抽象可以被认为是一个将基础表示(问题的原始描述)映射到抽象表示(更紧凑、更易于使用的过程。换句话说,抽象使决策者能够从相关信息中区分出相关信息。从计算的角度来看,状态抽象是一种使学习和规划算法在大型、真实世界问题中变得实用的技术。
在本文中,我们将重点研究马尔可夫决策过程中的状态抽象,其中已经提出了不同类型的抽象,包括互模拟、同态、有用判别和策略无关。鉴于选择的多样性,自然会出现如下问题:
(1)状态抽象有统一的定义吗?
(2)这些抽象之间有什么关系?
(3)抽象MDP的解决方案与基础MDP有何关系?我们可以做些什么保证呢?
(4)我们如何在抽象方案中进行选择?
由于不同类型的抽象都是独立开发的,所以还没有统一的处理方法。虽然有状态抽象的估计和边界近似误差的结果,但我们寻求回答定性问题,如“当应用抽象时丢失了什么信息?”以及“最佳政策何时仍保留?”事实上,在使用状态抽象时,缺乏对状态抽象的定性洞察可能会导致负面结果。
这篇论文的主要贡献是对状态抽象的一般处理,它统一了许多以前的工作。专注于抽象理论本身,包括形式定义、关系和定性属性(如保持最优性和可学习性)。
3 状态抽象理论
我们采纳了Giunchiglia和Walsh[10]的观点,他们认为当保留某些属性时,抽象是从一个问题表示到一个新表示的一般映射(a mapping from one problem representation to a new representation, while preserving some properties)。
[10] Fausto Giunchiglia and Toby Walsh. A theory of abstraction.Artificial Intelligence, 57(2–
3):323–390, 1992.
这篇文章关注的是保存代理做出导致最优行为的决策所需的属性。
3.1 状态抽象的一般表示
于是状态转移和奖励函数可以定义为:
于是,通过判断对任意动作a下的所有抽象状态的抽象状态转移分布之和是否等于1即可判断是否定义好了下一状态的分布:
其中,w(s)可以看作度量状态对抽象状态φ(s)的贡献程度。
3.2 抽象的拓扑空间
这个小节中,我们关注这些抽象是如何相互关联的问题。设ΦM为抽象空间——MDP上的抽象集。我们需要下面的定义。
从定义1和2可以明显看出满足反身性、反对称性和传递性。因此,我们得到如下定理。
定理1:the finer relation is a partial ordering.
换句话说,如果我们描述抽象空间ΦM的拓扑结构,我们将得到一个在每个节点上都有自循环的有向无环图(DAG);每个边缘点从一个抽象Φ1到另一个抽象Φ2。最后是最好的表示(基本表示),我们表示Φ0(Φ0是恒等映射,¯S=S),在另一个极端是最粗糙的表示(由单个抽象状态组成的空表示)。
3.3 抽象的5种类型
对于MDP有许多抽象,因为有许多可能的方法来划分状态空间。然而,并不是所有的抽象都是同等重要的。一个有用的抽象必须保留一些对解决原始MDP至关重要的信息。
其中,1中 Φmodel保留的一步模型(如互模拟);2中ΦQΠ为所有策略保留State-Action值函数;3中ΦQ*保留最优状态-动作值函数;4中Φa*保留最优动作的值函数;5中ΦΠ*尝试保留最优动作的值函数。
3.4 抽象的属性
在上一小节中,我们介绍了状态抽象的集合。下面我们将正式研究它们的性质。
第一个问题是抽象如何相互关联。定理2表面,他们在偏序(partial order )下形成链。
因此,这五个抽象中的任何一个都是其他更精细抽象的特例。
第二个问题与规划有关。 给定一个抽象的MDP,我们可以使用标准的动态规划算法,如值迭代和策略迭代来解决它,获得一个最优的抽象策略。用什么抽象方法保证在基本MDP M中是最优的?
我们得到了以下结论:
最后,我们考虑了学习问题,其中Agent根据经验估计最优值函数。在抽象的情况下,QLearning需要进行一些修改。在观察到转换(st、at、rt、st+1)之后,代理在抽象状态空间中执行以下操作进行备份:
于是,我们得到了关于Q-learning的以下结论:
与无模型强化学习(例如,Q学习)相比,强化学习是基于模型的学习(例如,优先扫描[19]),其中Agent首先通过交互经验建立一个经验模型来近似MDP,然后求解该模型。在状态抽象的上下文中,代理首先建立M的经验抽象模型,然后求解π∗,然后将其转换回基本策略。对于这样一类学习算法,我们得到了以下结论:
3.5 Necessary Conditions for Locally Checkable Abstraction
由于φa∗是定理5中列出的最粗的抽象函数,其足以在基于模型的设置中收敛到在基本φ中也是最优的策略,因此可以推测定义∗的条件对于该保证是否也是必要的。这让人回想起麦卡勒姆提出的一个公开问题:效用区分(他对φa∗的实例化)是否是保持最优策略的充要条件。在有限的意义上,我们发现答案是肯定的。我们定义了局部可检查抽象的集合,Φlc是那些只使用一步奖励和转移、一步可达状态的抽象类和两个候选态的最优Q函数值来决定这两个状态是否应该聚合的抽象。注意,Φlc包含定义3中定义的所有抽象函数。研究这个类,我们得出以下结论:
定理6源自这样一个事实,即使最优动作的Q值中的一个被改变,我们也可以按照图1(B)的精神构造恶意示例,其中新的Q值导致通向聚集状态的轨迹中的状态将次优动作提升到M中的最优性。
4 总结
我们引入了状态抽象的一般定义,并用它导出了几种自然类型的抽象的形式属性。给出许多抽象选择,一个重要的问题是:我们应该选择哪一个?从上面的分析可以看出,越来越粗略的抽象会丢失越来越多的关于问题(MDP)的信息。例如,φ模型提供了从本质上恢复整个模型的机会,而用φQ∗表示和学习最优状态-动作值函数是可能的。较粗的值函数(φa∗)不再保证值函数对于次优动作的可学习性,但允许规划(即,值迭代)。最后,在链条的最末端,即使是最优计划通常也会在φπ∗中丢失,尽管仍然可以表示最优策略。然而,较粗略的抽象会导致状态空间的较大缩减,这反过来又会转化为解决问题的效率。因此,在选择抽象时,需要在最小化信息损失和最大化状态空间约简之间进行权衡。