ICLR 2022 | 从几何视角来看无监督强化学习

683c3c2d46242f6a99c77e8c0236b551.gif

©作者 | 我是谁啊

5f86182820203c94b872081c0cccc0c3.png


文章主旨

本文主要针对一种无监督(不依赖 reward)的强化学习预训练方法——无监督技巧发现(unsupservised skill discovery)的算法最优性质进行了讨论。作者证明了通过最大化互信息(mutual information)方式的 skill discovery 无法保证对任何下游奖励函数都是最优的。同时在,作者证明了在某种特定的下游任务 adaption 方式下(在后续的章节中详细讲解),通过预训练得到的 policy 能够最大化不同的 reward 下游任务中的最差情况(worst case)下的表现。

83fb1b908fdb53a19e09ed7fd905af9c.png

论文标题:

The Information Geometry of Unsupervised Reinforcement Learning

论文链接:

https://arxiv.org/pdf/2110.02719.pdf

83312db2cf0947ffa9dd4b759add959d.png


符号定义

定义某 MDP 下依策略 ,折扣状态占有率(state occupancy)为 ,

c11c15a333300835dc66449da373c21b.png


其中, 为依策略 进行采样, 时刻处于状态 的概率。据此重新定义强化学习的优化目标:

956f1a8cae8fcc3ecfdb852e778c97af.png

其中这里使用了仅与 state 有关的奖励函数 。


e4704bca1a9afc89fcc865b48dedc577.png


无监督的技巧学习


此前的无监督技巧学习试图学习策略 ,除了状态 s 以外,策略同时与额外的输入变量 条件相关。其中 z 通过一个分布来进行生成 (这个分布同样是训练得到的)。在此前的一些工作中,通过最大化 与 之间的互信息进行优化:

9ddfebfbe20ee8fd2896c51b2ffcb37b.png


上式中需要同是对 (对应参数 )以及 进行优化。作者对问题进行简化,将两者进行整合,定义:,据此定义,上式优化问题可以被表示为:

02534b01364c72519e90152c4fd9ebd7.png

7396c62b7d25ce0fa6c133e197018d8a.png


Theorem 4.1证明(本文的核心定理)

定理如下:

10e7f2172927afad4cc46564d480626b.png

其中,

e05930002efbbe645eaa285f02ff67d0.png

公式中 代表初始化数据分布(即 pre-train 后得到的分布,初始化是相对于下游任务来说), 为在下游任务上(对于奖励函数 )进行 adaption(finetune)得到的 state 分布; 下游任务 上的最优 state 分布。

首先对 AdapationObjective 进行理解:

a301bd8310d1f998e9da8b66f8351a9f.png

为 的优化目标,即策略在下游任务上的 adaption 过程,其中第一项以策略在下游任务 为优化目标,第二项为 与初始化策略分布 分布之间的 KL 散度,KL 散度越小,两者之间差异性越小,策略能够越容易的 general 到下游任务(作者称此项为 information cost)。可以看到 与 的唯一差别是: 为 下的最优 state 分布,仅仅以策略最优性作为优化目标,而 的优化过程需要同时考虑策略最优性以及 adaption 过程的 information cost。


Proof:


假定下游任务 以及初始化分布 已经给定,首先针对 进行优化:

09e80b58bf7109709e015917cb9b8a24.png

343b6c598d7e8af17c4ea7d068ea154b.png

408b37315eee0833d886ad837bdb882f.png

f993620d99d5d31ebd6e5dac4bc6b2fc.png

将 带入 AdaptionObjective 中,有,

8cae4f6af24947a585327df1db12a233.png

因此,问题的原始优化目标可以被表示为:

5d4e7fbab15fa339dbb09ea9469275b5.png

对 进行优化,

ad9855da163103a574a47f0d79390ed0.png

c9150ca5f4c63ca07f48587c97b37052.png

868fb98c12b6b4444f5ae03602a51445.png

624a6ef454cf3a6622c07914809e120b.png

将 进一步带入,得

28f7e852bf7e8591444617c0162e9efd.png

根据 Lemma 6,5,在 给定的情况下,有:

ca0a883f065109d8f0f8728da2dbf272.png

将优化变量由 替换为 ,在 给定的情况下(事实上根据作者的定义,,那么 仅仅与环境转移有关)。

至此,Theorem 4.1得证。


4b58d4df45f6b224baba83da717ce0ef.png


Skill Learning的几何解释


5.1 哪些策略(以及策略对应的state分布)是可达的?

514ee0b1402d1d3f30db4aa94be498bc.png

作者以状态空间 为例,对问题进行可视化分析。状态的 state-occupancy 需要满足:

5537baad670565ff45ae01f118983207.png

也就是所有可能的 state-occupancy 都分布在此超平面上。

Proposition 1. 给定一系列可行的 state marginals(state-occupancy 分布,即图中黄色点),那么这些可达的 state marginals 的所有凸组合一定也是可达的,这些可能的所有凸组合构成了整个可行空间(图中橘黄色多面体)。

该可达区域实际上构成了一个凸集。


5.2 哪些策略(以及对应的state分布)是最优的?

2491f859178ee139358ed6993af02890.png

同样以状态空间 为例,假定状态分布为 ,并且 。作者将奖励函数 可视化为三位空间中的某个向量 ,那么累计奖赏可以被表示为:

70a27b2b5cb0bc4030958b5fc06f32cd.png

即累计奖赏可以被表示为 reward 函数与状态分布向量的内积。

Fact 1. 对于每个仅与状态有关(state-dependent)的奖励函数 ,对于策略可达区域内的所有策略,能够使在 下的累计奖赏 G 最大的策略一定在可达区域多面体的顶点上。

proposition 2 可以由最大值原理(maximum principle)得到,这里不进行过多介绍。

Fact 2. 对于状态可达多面体的每一个顶点,存在一个特定的奖励函数 ,使得该顶点对应的策略为 下的最优策略。

Definition 5.1:顶点发现问题(Vertex Discovery Problem):给定某个受控 MDP 过程(没有 reward 的 MDP 过程),寻找一个最小策略集合,使得状态可达多面体的每个顶点至少有一个策略与之对应。

5.3 基于Mutual information的Skill learning学得的策略是如何在策略可达多面体内分布的?


回顾 Skill learning 的原始优化问题,即最大化互信息 ,

cf0ed5a11dfbcc26ee38064321202404.png


其中, 为 下的平均状态分布,


对于上述优化问题进行优化时,最大化互信息会驱使 skill learning 学得的策略的状态分布 远离平均状态分布 (因为最大化 KL 散度会放大两个不同分布之间的差异性)。因此,当 skill learning 达到最优时,对于距离平均分布 的最远的策略赋予一个比较大的概率,而对于其余策略(与 的距离小于最远距离的策略),则会赋予概率为 0。


作者在 Figure 3(下图)进行了举例分析,其中图中绿色点代表状态的平均分布 ,橙色的点代表算法学得的 skill,图中的虚线圆圈代表了 与策略可达区域的最大边界线(可以理解为策略可达多面体的外切球)。我们以最左边的图进行分析,图中的策略可达多面体有 3 个节点分布最大边界上,也就是 skill learning 共学得了三个不同的 skill,其概率和为 1(0.28 + 0.28 + 0.44=1),因此,作者想表达的意思是,只有分布在最大边界上的策略才能被习得

f9fadfbce1788c525b404bc62da88f70.png

作者对此现象在 lemma 6.2 进行了公示化表述:


5.4 Skill learning最多能够习得多少个不同的skill?

为了回答这个问题,作者提出如下假设:

Assumption 1:假定 中任意取出 个节点构成的集合,都不关于 KL 散度共圆。也就是不存在某个 使得集合中所有节点距离 的距离相等。

存在于 维空间中,共有 个自由度(因为和为1的约束)。当不断习得 skill 时,需满足与 的距离为 ,其中 作为变量提供了一个额外的自由度。因此,最多添加 个约束, 便可以完全确定,继续增加额外的 skill 会让该问题变成 ill-defined。因此,最多同时习得 个 skill。

9bf8e9b49fd4d3ac2056cf3cbe9fde91.png

送福利啦!

独家定制炼丹中/Fine-Tuning

超超超超超大鼠标垫

限量 200 份 

扫码回复「鼠标垫」 

立即免费参与领取 

👇👇👇

5b26cafb9253fa51f5dc112ddf03a24f.png

更多阅读

97601c9cd95593639771c7c9070917a6.png

77f2ea5f8987a3ddaec0b491278656a2.png

25f0bc9cd223f784e0860c68733f2e55.png

fe9ec8150667b108f2d9828ca5721402.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

60201ce679461a772c8b2364923ac24b.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

a12c1e5bc58fe238f99de72cf4c25f37.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值