Curiosity-driven Exploration by Self-supervised Prediction
研究问题:在稀疏的reward或者几乎没有reward的环境中,如何让agent更有效地对环境进行探索,甚至学习到一些技能?
主要想法:利用’好奇心’作为内在的reward信号来让agent更有效地进行探索,甚至学习到技能
解决方案:将’好奇心‘的reward建模成agent对于新状态在visual feature space中的预测与实际状态在visual feature space的表征的不同,同时利用self-supervised inverse dynamics model来帮助agent对特征空间进行状态特征的提取,并在面对新环境中进行fine-tuning
introduction
1)稀疏的外部奖励,其中好奇心允许与环境进行更少的交互来实现目标;
2)没有外在奖励的探索,好奇心推动代理人更有效地探索;
3)推广到看不见的场景(例如,同一游戏的新级别),在这些场景中,从早期经验中获得的知识帮助智能体比从头开始更快地探索新的地方。
关于内在奖励主要可分为两种:
-
鼓励智能体探索新状态
Bellemare, Marc, Srinivasan, Sriram, Ostrovski, Georg, Schaul, Tom, Saxton, David, and Munos, Remi. Unifying count-based exploration and intrinsic motivation. NIPS, 2016
-
鼓励智能体采取行动 来增加其预测后续动作后果的准确性(对环境的了解)
Mnih, V olodymyr, Badia, Adria Puigdomenech, Mirza,Mehdi, Graves, Alex, Lillicrap, Timothy P , Harley, Tim, Silver, David, and Kavukcuoglu, Koray. Asynchronous methods for deep reinforcement learning. ICML,2016.
需要当前状态st 和在t时刻执行的动作at 预测下一个状态 st+1 这两种模型都难以在高维连续状态空间(如图像)中构建。比如预测每个pixel的颜色是一件很困难的事,稍微有些差别,prediction error就会变化的比较大,所以agent很容易被这样的信息误导,并没有达到探索的目的。此外图片中的信息其实非常丰富,比如在不同关卡的背景,亮度不同,但是本质的内含相近,关注这些额外的信息反而会影响在不同关卡中的泛化。
另一个挑战在于如何处理agent环境系统的随机性,这既是由于agent驱动中的噪声,更根本的是由于环境中固有的随机性。
估计可学习性是一个非常重要的问题。
本文只预测环境中可能由于agent的行为或影响agent的那些变化,而忽略其余的变化。也就是说,不是在原始的感官空间中进行预测,将感官输入转换为一个特征空间,在该空间中只表示与agent执行的动作相关的信息。我们使用自我监督来学习这个特征空间——在agent逆动力学任务中训练神经网络,根据agent的当前和下一时刻状态预测agent的行为。由于神经网络只需要预测行为,因此它没有动机在其特征嵌入空间内表示不影响agent的环境变化因素。然后,我们使用这个特征空间来训练一个正向动力学模型,该模型预测下一个状态的特征表示,给定当前状态和动作的特征表示。
探索行为的一个可取特征是,当agent获得更多知识时,好奇心应该得到改善
Curiosity-Driven Exploration
奖励设置
r t i r_t^i rti 表示由于好奇心带来的内在奖励, r i e r_i^e rie 表示环境中本来就有的奖励。比如达到目标获得奖励, 然后再采用传统的RL算法,通过最大化自己的累积收益来学习到相应的策略。
这里的 r t e r_t^e