基于分位数回归的分布强化学习(Distributional Reinforcemet Learning with Quantile Regression)

摘要

Deep Mind团队联合剑桥大学在2017年提出了一种新的强化学习范式——基于分位数回归的分布强化学习(QR-DRL),为强化学习的未来发展指明了一个更加有前景的方向,以学习回报值的概率分布来代替学习回报值的期望值。Deep Mind的论文通过在atari游戏中的实验,证明了QR-DRL的强大性能,在众多游戏中都达到了state-of-art。私以为QR-DRL是近年来为数不多的,从根本理论上对强化学习的创新发展,分布强化学习将会在未来的几年里成为强化学习领域的研究热点之一。

QR-DRL的理论基础

牛顿说过:“如果说我看得比别人更远些,那是因为我站在巨人的肩膀上。”QR-DRL也是在众多前人的研究基础上提出的。想要理解QR-DRL,就不得不提到以下几个概念:

 1. Distributional RL(分布强化学习)
 2. The Wasserstein Metric(瓦瑟斯坦度量)
 3. Quantile Regression(分位数回归)
1.分布强化学习

我们先来讲将分布强化学习吧。简单来说,传统RL如Q-learning学习的是回报值的未来期望值:
在这里插入图片描述
其中,
在这里插入图片描述
表示在遵循策略π的情况下,表示未来总折扣收益的随机变量。而在分布强化学习中,我们要学习的是这个随机变量所满足的概率分布。2017年,Bellemare等人在他们工作中将这种学习概率分布的思想拓展到强化学习中,并提出了分布贝尔曼算子(distributional Bellman operator):
在这里插入图片描述
在他们的论文中,Bellemare等人还提出了最早的分布强化学习算法——C51。简单来说,C51分为两步:1.启发式投影。2.最小化投影后的Bellman更新分布与预测分布之间的KL散度。
先来解释一下第一步的投影到底是个什么玩意儿。要想学习一个概率分布,你首先要找到一种方式来表示这个概率分布。C51的做法是,以若干个固定位置 z 1 &lt; . . . &lt; z N z_{1}&lt;...&lt;z_{N} z1<...<zN作为支撑,建立一个离散分布 Z π ( x , a ) Z^{\pi }\left ( x,a \right ) Zπ(x,a)。这些固定位置在一个预先确定的间隔中均匀分布。在每个位置 z i z_{i} zi的概率 q i q_{i} qi构成了分布的参数, q i q_{i} qi由logits模型来表示。在给定一个当前值分布下,C51通过一个投影操作 Φ \Phi Φ将目标 T π Z T^{\pi }Z TπZ投影到其有限个支撑位置上。最后通过一个KL最小化步骤进行更新。
C51可以形象化成下图:
在这里插入图片描述
Bellemare等人工作的贡献除了C51算法,还证明了分布贝尔曼算子是概率分布之间Wasserstein度量极大形式的收缩。Wasserstein度量能够有效避免执行贝尔曼更新时产生的disjoint-support问题。与Kullback-Leibler散度不同,Wasserstein度量是一个真实的概率度量,它同时考虑各种结果事件的概率和它们之间的距离。即使Wasserstein度量是如此地契合分布强化学习,不幸的是 Bellemare等人指出,Wasserstein度量作为一种损失,是无法由随机梯度下降来进行最小化的。C51算法中使用了KL散度来替代Wasserstein度量,虽然在atari游戏中取得了state-of-art,但是其收敛性与有效性均没有理论支撑。

2.The Wasserstein Metric(瓦瑟斯坦度量)

分布U与Y间的p-Wasserstein度量 W p W_{p} Wp

  • 9
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值