deepfashion 深度学习_【论文分享沙龙 | 2020第163期】强化学习的快速和缓慢

最新推荐文章于 2022-07-01 08:09:24 发布

weixin_39707201

最新推荐文章于 2022-07-01 08:09:24 发布

阅读量166

点赞数

文章标签： deepfashion 深度学习深度学习效果突然下降用深度强化学习玩atari游戏

论文分享沙龙2020第16期

分享人：中国矿业大学博士马丁

研究方向：计算机视觉 | 行人搜索

论文标题：Reinforcement Learning, Fast and Slow(强化学习的快速和缓慢)

论文来源：Trends in cognitive sciences 2019

论文下载：https://reader.elsevier.com/reader/sd/pii/S1364661319300610?token=CCCE00FF52BED2EF740DE878857B3CB3FE4FB510967408805402EC1B231D288FB36F3D72FC5FDB0A0ACAD6405E2389F3

摘要：

近年来，深度强化学习(RL)方法推动了人工智能的惊人进步，在从Atari到Go到无限扑克等领域中，人类的表现都超过了人类。这一进展吸引了对了解人类学习感兴趣的认知科学家的注意力。但是，人们一直担心，深层RL可能样本效率太低(也就是说，它可能太慢了)，无法提供一种人类学习方式的合理模型。在本文中，我们通过描述最近开发的技术来反驳这种批评，这些技术使深层RL能够更灵活地运行，比以前的方法更快地解决问题。尽管这些技术是在AI环境中开发的，但我们建议它们可能对心理学和神经科学具有丰富的意义。这些AI方法产生的关键见解涉及快速RL和较慢，更多增量学习形式之间的基本联系。

1. 方法

图1 深度RL方法演变

RL集中于学习行为策略，从状态或情况到动作的映射问题，这可以最大化累积长期奖励。在简单的设置中，该策略可以表示为查找表，列出针对任何状态的适当动作。但是，在更丰富的环境中，这种简单的列表是不可行的，因此必须将策略隐式编码为参数化函数。1990年代的开拓性工作表明，可以使用多层(或深度)神经网络来逼近此函数，允许梯度下降学习发现丰富的从感知输入到动作的非线性映射。但是，技术挑战一直将深度神经网络与RL集成阻止到2015年，当时突破性的工作证明了可以使RL在诸如Atari视频游戏等复杂领域工作的程度。从那时起，在改进和扩展深度RL方面取得了迅速的进展，使其可以应用于复杂的任务域，例如Go和Capture the Flag。在许多情况下，后来的发展涉及将深度RL与结构和算法补全相集成，例如树搜索或slot-based类似回合式记忆。其他进展集中在学习速度的目标上，使深度学习RL仅根据一些观察就可以取得进展，如正文中所述。

图1说明了深度RL方法的演变，从图1中开始，是Tesauro突破性的backgammon-playing系统“TD-gammon”。这是以神经网络为中心的，该神经网络以棋盘的表示形式作为输入，并学会输出“状态价值”的估计，状态价值定义为期望累积未来奖励，这仅等于从当前位置最终赢得比赛的估计概率。B显示了Mnih及其同事报告的Atari-playing DQN网络。在这里，卷积神经网络将屏幕像素作为输入并学习输出操纵杆动作。C显示了Wayne及其同事报道的最先进的深度RL系统。此RL智能体的详细“接线”的完整描述不在本文讨论范围内。但是，如图1所示，该结构包含多个模块，包括一个神经网络，该神经网络利用类似回合式记忆来预测即将发生的事件，它与强化学习模块“对话”，该模块根据预测器模块的当前状态选择动作。该系统除其他任务外，还将学习在迷宫般的环境中执行目标导向的导航，如图1所示。

把打游戏视为智能体agent通过一系列的action，观察，reward和环境(这里指Atari模拟器)进行交互。模拟器内部的状态不被agent获得，agent只能获取游戏画面以及相应的得分。显而易见的是现阶段的状态不仅仅是取决于当前游戏画面，也取决于之前的状态和动作。Agent可以通过这些来学会如何打游戏，即如何选取当前的动作使得未来的效益得分最高。强化学习agent的每一步动作在环境中造成的reward实际上都与之前的动作有关，不能只单纯把此时的reward看作当前动作造成的结果，而本文利用了Atari模拟器，将之前游戏的分数也算在当前的状态中，从中我更加清楚得了解了agent-action-reward-state之间的关系。算法主要分为以下几步，首先进行初始化，初始化replay memory D，用来储存N个训练样本；将训练分成M场游戏，每场游戏训练T次。每场新的游戏都要初始化状态。并且做图像预处理，得到4ⅹ84ⅹ84的视频帧。每一次episode的单次训练中，当概率ϵ很小的时候，则选择一个随机的动作，或者根据当前的状态输入到当前的网络中计算出每个动作的Q值，选择Q值最大的一个动作，即最优动作。使用以上动作得到相应的reward以及下一个image，则下一个状态就往前再处理4帧的图像，得到新的网络输入。存储(上一个状态，动作，reward，下一个状态)转化数据到replay memory D中(最多存N个，多的会覆盖原先的数据)。从replay memory D中随机选取一个存储的转化数据(上一个状态，动作，reward，下一个状态)来训练网络。计算当前状态的目标action-value：如果下一个状态游戏结束，那么action-value就是得到的reward；如果游戏没有结束，那么就将下一个处理好的状态输入到网络，得到target网络参数(不一定更新)。然后计算当前状态和动作下的Q值，将当前处理好的状态输入到网络，选择对应的动作的Q值。根据loss function通过SGD来更新参数Q中的参数。每C次iteration后更新target网络的参数为当前的参数。

2. 总结

回合式RL算法使用回合式记忆来估计动作和状态的价值。例如，考虑图中所示的回合式评估算法，其中，智能体存储每个遇到的状态以及在接下来的n个时间步骤中获得的折扣奖励总和。这两个存储的项包括对所遇状态和后续奖励的回合式记忆。为了估计新状态的价值，智能体计算存储的折扣奖励总和，并按存储的状态与新状态之间的相似性(模拟)加权。通过将所采取的动作连同状态和奖励总和一起记录在记忆存储中，然后查询存储以查找仅采取了要评估的动作的记忆，可以将该算法扩展为估计动作价值。实际上，使用了这种回合式RL算法来在Atari游戏中实现强大的性能。

回合式RL的成功取决于用于计算状态相似性的状态表征。在后续研究中，通过使用梯度下降学习逐渐塑造这些状态表征，可以提高性能。这些结果证明了Atari学习环境中57款游戏的出色性能和最新数据效率，展示了将慢速(表征)学习和快速(价值)学习相结合的优势。与之前的同类论文不同，本文通过引入一个衰减系数ϵ，让reward每回合都衰减一定比例。ϵ-greedy 策略让ϵ前1百万次线性地从1下降到0.1，然后保持在0.1不变。这样一开始的时候对Q值的更新采用随机搜索，后面慢慢使用最优的方法。这种方法很好的解决了深度学习中过早结束的问题,适合处理非平稳目标，但是引入了新的参数衰减系数ρ,依然依赖于全局学习速率。对所有游戏跳四帧，理由是不特别影响结果的情况下，计算效率更高。

排版编辑：侯浩鹏综合策划：何欣

weixin_39707201

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
deepfashion 深度学习_【论文分享沙龙 | 2020第163期】强化学习的快速和缓慢

论文分享沙龙2020第16期分享人：中国矿业大学博士马丁研究方向：计算机视觉 |行人搜索论文标题：Reinforcement Learning, Fast and Slow(强化学习的快速和缓慢)论文来源：Trends in cognitive sciences 2019论文下载：https://reader.elsevier.com/reader/sd/pii/S136466131...
复制链接

扫一扫