强化学习里的好奇心

本文探讨了强化学习中利用好奇心进行探索的机制。通过预训练差作为好奇心激励,智能体能在稀疏或无外在激励的环境中进行有效探索。自监督预测帮助智能体忽略无关变量,专注于关键特征。实验表明,好奇心驱动的智能体在各种环境中的探索性能优于传统方法,具有较强的泛化能力。
摘要由CSDN通过智能技术生成

去年有一篇利用好奇心驱动进行exploration的强化学习文章很有意思(Curiosity-driven Exploration by Self-supervised Prediction)。在大多数真实世界的问题中,外在世界的激励(reward)往往极其稀疏,甚至缺失。得不到反馈的agent则缺乏有效的机制更新自己的策略函数(policy)。 在这种情况下,文章提出了利用内在的好奇心来驱动对世界的探索。

文章举了一个例子:在一个阳光明媚的周末午后,一个三岁小孩在人生中的激励遥不可及的情况下(比如大学,工作,房子,家庭等等),仍然能够在游乐场上没心没肺的玩耍。作为人类主体(human agent),她的行为受到了心理学家称之为内在激励(intrinsic motivation)即好奇心的驱动。好奇心是一种学习新知识/技巧的方法,而这些新技巧在未来获得激励时会发挥作用。

好奇心驱动的探索

智能体由两个子系统组成:激励产生器(reward generator)和策略(policy)。前者产生好奇心驱动的内在激励,后者产生用来最大化激励信号的一系列行为。为了使算法不失一般性,假设智能体也可以从环境偶尔获得外在的激励。在时间t,假设内在激励为 r t i r_{t}^{i} rti,外在激励为 r t e r_{t}^{e} rte。那么策略子系统用来最大化 r t = r t i + r t e r_{t}=r_{t}^{i}+r_{t}^{e} rt=rti+rte。这里 r t e r_{t}^{e} rte在多数情况下为0。

具体而言,假设policy π ( s t ; θ P ) \pi(s_{t}; \theta_{P}) π(st;θP)被表达为一个参数为 θ P \theta_{P} θP的深度神经网络,我们需要找到最大化总激励期望值的 θ P \theta_{P} θP
max ⁡ θ P E π ( s t ; θ P ) [ ∑ t r t ] \max_{\theta_{P}}E_{\pi(s_t; \theta_{P})}\big[ \sum_{t}{r_t} \big] θPmaxEπ(st;θP)[trt]

那么 r t i r_{t}^{i}

  • 9
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值