deepfashion 深度学习_【论文分享沙龙 | 2020第163期】强化学习的快速和缓慢

论文分享沙龙2020第16期

分享人:中国矿业大学博士 马丁

研究方向:计算机视觉 | 行人搜索

eaee968f-401f-eb11-8da9-e4434bdf6706.png

论文标题:Reinforcement Learning, Fast and Slow(强化学习的快速和缓慢)

论文来源:Trends in cognitive sciences 2019

论文下载https://reader.elsevier.com/reader/sd/pii/S1364661319300610?token=CCCE00FF52BED2EF740DE878857B3CB3FE4FB510967408805402EC1B231D288FB36F3D72FC5FDB0A0ACAD6405E2389F3

摘要:

   近年来,深度强化学习(RL)方法推动了人工智能的惊人进步,在从Atari到Go到无限扑克等领域中,人类的表现都超过了人类。这一进展吸引了对了解人类学习感兴趣的认知科学家的注意力。但是,人们一直担心,深层RL可能样本效率太低(也就是说,它可能太慢了),无法提供一种人类学习方式的合理模型。在本文中,我们通过描述最近开发的技术来反驳这种批评,这些技术使深层RL能够更灵活地运行,比以前的方法更快地解决问题。尽管这些技术是在AI环境中开发的,但我们建议它们可能对心理学和神经科学具有丰富的意义。这些AI方法产生的关键见解涉及快速RL和较慢,更多增量学习形式之间的基本联系。

1. 方法

f2ee968f-401f-eb11-8da9-e4434bdf6706.png

图1 深度RL方法演变

RL集中于学习行为策略,从状态或情况到动作的映射问题,这可以最大化累积长期奖励。在简单的设置中,该策略可以表示为查找表,列出针对任何状态的适当动作。但是,在更丰富的环境中,这种简单的列表是不可行的,因此必须将策略隐式编码为参数化函数。1990年代的开拓性工作表明,可以使用多层(或深度)神经网络来逼近此函数,允许梯度下降学习发现丰富的从感知输入到动作的非线性映射。但是,技术挑战一直将深度神经网络与RL集成阻止到2015年,当时突破性的工作证明了可以使RL在诸如Atari视频游戏等复杂领域工作的程度。从那时起,在改进和扩展深度RL方面取得了迅速的进展,使其可以应用于复杂的任务域,例如Go和Capture the Flag。在许多情况下,后来的发展涉及将深度RL与结构和算法补全相集成,例如树搜索或slot-based类似回合式记忆。其他进展集中在学习速度的目标上,使深度学习RL仅根据一些观察就可以取得进展,如正文中所述。

图1说明了深度RL方法的演变,从图1中开始,是Tesauro突破性的backgammon-playing系统“TD-gammon”。这是以神经网络为中心的,该神经网络以棋盘的表示形式作为输入,并学会输出“状态价值”的估计,状态价值定义为期望累积未来奖励,这仅等于从当前位置最终赢得比赛的估计概率。B显示了Mnih及其同事报告的Atari-playing DQN网络。在这里,卷积神经网络将屏幕像素作为输入并学习输出操纵杆动作。C显示了Wayne及其同事报道的最先进的深度RL系统。此RL智能体的详细“接线”的完整描述不在本文讨论范围内。但是,如图1所示,该结构包含多个模块,包括一个神经网络,该神经网络利用类似回合式记忆来预测即将发生的事件,它与强化学习模块“对话”,该模块根据预测器模块的当前状态选择动作。该系统除其他任务外,还将学习在迷宫般的环境中执行目标导向的导航,如图1所示。

把打游戏视为智能体agent通过一系列的action,观察,reward和环境(这里指Atari模拟器)进行交互。模拟器内部的状态不被agent获得,agent只能获取游戏画面以及相应的得分。显而易见的是现阶段的状态不仅仅是取决于当前游戏画面,也取决于之前的状态和动作。Agent可以通过这些来学会如何打游戏,即如何选取当前的动作使得未来的效益得分最高。强化学习agent的每一步动作在环境中造成的reward实际上都与之前的动作有关,不能只单纯把此时的reward看作当前动作造成的结果,而本文利用了Atari模拟器,将之前游戏的分数也算在当前的状态中,从中我更加清楚得了解了agent-action-reward-state之间的关系。算法主要分为以下几步,首先进行初始化,初始化replay memory D,用来储存N个训练样本;将训练分成M场游戏,每场游戏训练T次。每场新的游戏都要初始化状态。并且做图像预处理,得到4ⅹ84ⅹ84的视频帧。每一次episode的单次训练中,当概率ϵ很小的时候,则选择一个随机的动作,或者根据当前的状态输入到当前的网络中计算出每个动作的Q值,选择Q值最大的一个动作,即最优动作。使用以上动作得到相应的reward以及下一个image, 则下一个状态就往前再处理4帧的图像,得到新的网络输入。存储(上一个状态,动作,reward,下一个状态)转化数据到replay memory D中(最多存N个,多的会覆盖原先的数据)。从replay memory D中随机选取一个存储的转化数据(上一个状态,动作,reward,下一个状态)来训练网络。计算当前状态的目标action-value:如果下一个状态游戏结束,那么action-value就是得到的reward;如果游戏没有结束,那么就将下一个处理好的状态输入到网络,得到target网络参数(不一定更新)。然后计算当前状态和动作下的Q值,将当前处理好的状态输入到网络,选择对应的动作的Q值。根据loss function通过SGD来更新参数Q中的参数。每C次iteration后更新target网络的参数为当前的参数。 

2. 总结

回合式RL算法使用回合式记忆来估计动作和状态的价值。例如,考虑图中所示的回合式评估算法,其中,智能体存储每个遇到的状态以及在接下来的n个时间步骤中获得的折扣奖励总和。这两个存储的项包括对所遇状态和后续奖励的回合式记忆。为了估计新状态的价值,智能体计算存储的折扣奖励总和,并按存储的状态与新状态之间的相似性(模拟)加权。通过将所采取的动作连同状态和奖励总和一起记录在记忆存储中,然后查询存储以查找仅采取了要评估的动作的记忆,可以将该算法扩展为估计动作价值。实际上,使用了这种回合式RL算法来在Atari游戏中实现强大的性能。

回合式RL的成功取决于用于计算状态相似性的状态表征。在后续研究中,通过使用梯度下降学习逐渐塑造这些状态表征,可以提高性能。这些结果证明了Atari学习环境中57款游戏的出色性能和最新数据效率,展示了将慢速(表征)学习和快速(价值)学习相结合的优势。与之前的同类论文不同,本文通过引入一个衰减系数ϵ,让reward每回合都衰减一定比例。ϵ-greedy 策略让ϵ前1百万次线性地从1下降到0.1,然后保持在0.1不变。这样一开始的时候对Q值的更新采用随机搜索,后面慢慢使用最优的方法。这种方法很好的解决了深度学习中过早结束的问题,适合处理非平稳目标,但是引入了新的参数衰减系数ρ,依然依赖于全局学习速率。对所有游戏跳四帧,理由是不特别影响结果的情况下,计算效率更高。

f6ee968f-401f-eb11-8da9-e4434bdf6706.png排版编辑:侯浩鹏综合策划:何   欣

f9ee968f-401f-eb11-8da9-e4434bdf6706.jpeg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值