一文全面了解深度强化学习

阅读更多,欢迎关注公众号:论文收割机(paper_reader)
原文链接:深度强化学习简介

近两年,深度强化学习可谓是空前绝后,迎来了研究的高潮,同时研究的成果也是登陆各大主流媒体,比如打败了所有人类围棋高手的阿尔法狗「AlphaGo 之父」David Silver最新演讲,传授强化学习的十大原则

 

能够打败人类游戏高手的腾讯AI×王者荣耀「绝悟」项目首亮相:KPL秋季决赛击败顶尖战队

 

 

前段时间Arxiv上面,一个McGill University做强化学习的pos-doc和几位强化学习(reinforcement learning)的大佬联名挂了一篇深度强化学习的survey或者说是tutorial——《An Introduction to Deep Reinforcement Learning》。读了一些章节之后,觉得该书写的深入浅出,值得与大家分享一下。所以这篇推送翻译一下该书的abstract和introduction,推广一下该书,也让有兴趣的人能够了解到这本书讲了哪些东西,点击阅读原文可以直接打开原文献。

 

--------------------------------------------------------------------------------------------------------

 

摘要:

深度强化学习是由强化学习和深度强化学习组成。该领域的研究着重于解决一系列在过去无法由机器解决的决策制定问题。因此,深度强化学习在许多新的领域,如健康、机器人、智能电网、金融等领域,提出了新的应用。本书将介绍深度强化学习中的模型、算法以及应用技巧。本书特别着重于介绍泛化能力,以及深度强化学习如何在实际场景中应用。本书适用于已有机器学习基础的读者。

 

1 介绍(Introduction)

1.1 动机 (Motivation)

 

序列决策制定(Sequential Decision Making)是机器学习中的一个重要问题。该种任务是通过过往经验,来决定如何在不确定的环境中采取一系列的行动,从而能够达到最终需要的目标。序列决策制定任务涵盖了许多领域下的应用,如机器人、健康医疗、智能电网、金融、自动驾驶等等。

 

强化学习最初产生自行为心理学,并在此基础上提出了解决该问题的规范化的框架。其中强化学习的主要思想在于,一个人造主体(agent)能够与它所处的环境互动,从而学习如何行动,这与生物上的主体行为相似。

 

通过收集经验,人造主体能够通过以获得累积的(来自环境中的)奖励的形式,来优化一定的目标。这种方法主要能应用在任意一种基于经验的序列决策制定任务中。

 

该环境可以是随机的,该主体可以只观察到现有状态中的部分信息,观察到的信息可以是高维信息(如,框架和时间序列),该主体既可以自由的从环境中获得经验,抑或是,数据可能会受到约束(例如主体无法足够准确的得到数据或者数据量是有限的)。

 

在过去的几年里,由于能够解决困难的序列决策制定问题,强化学习变得越来受欢迎。其中有一些贡献是来自于强化学习和深度学习的组合。这种组合,被称之为深度强化学习。

 

深度强化学习特别适用于高维度的状态空间中。已有的强化学习的方法在特征选择的设计上非常困难。然而深度强化学习因为能够从不同层次上学习到数据的主要特征,从而只需要底层的先验知识就能够成功的解决复杂的任务。

 

例如,一个深度强化学习主体能够学习到由上千个像素组成的图像感知输入。所以这也让模仿人类在高维空间中解决问题——在几年前还是很难想象——的任务有成为现实的可能。

 

一些使用了深度强化学习的突出的工作有:训练一个超人类水平的能够玩像素游戏(如吃豆人)的主体,能够下围棋的大师,或者是能够打败世界顶级扑克大师的主体。

 

深度强化学习也有很多实际的应用场景,比如机器人,自动驾驶,经济分析,或者是智能电网,等等。尽管如此,现在的深度强化学习算法中仍然有很多需要解决的问题。

 

例如,如何更有效率的探索环境?而且将能够表现得很好主体放在一个稍有不同的环境下(迁移学习)仍然能够保持较好的效果,也不是一个非常容易解决的问题。因此,大量的基于深度强化学习框架的算法被提出来用以解决各种各样的序列决策制定问题,

 

1.2 Outline

 

本深度强化学习的介绍一书旨在引导读者有效使用和理解核心方法,同时能够给之后深入深度提供索引。读完本书后,读者应该能够理解深度强化学习的关键方法以及算法,并能够应用这些算法。除此之外,读者也会有足够的背景知识去深入研究深度强化学习。

 

第二章节将会介绍机器学习深度强化学习的研究领域,这是为了能够提供通用的技术用语,并且将会简单介绍深度学习的在机器学习中更广的应用场景。我们假设读者对监督学习和无监督学习中常用的符号表示已经熟悉,不过我们仍然会对一些关键点进行回顾。

 

第三章节中,我们介绍强化学习的框架,以及马尔可夫决策过程(MDP)的例子。在该场景中,我们会测试不同的方法,用以训练一个深度强化学习的主题。一方面,学习一个价值函数(第四章节)和(或)一种对决策方案的直接表示(第五章节)属于被称之为模型无关方法。另一方面,设计一个能够使用从环境中学到的模型的算法被称之为基于模型的方法(第六章节)。

 

在第七章节中,我们介绍了强化学习泛化(generalization)的概念。在既可以是基于模型,也可以是模型无关的方法的基础上,我们讨论了几种不同的基本问题:

 

(1)特征选择,

(2)函数近似器的选择,

(3)目标函数的修改以及

(4)层次化学习

 

在第八章节中,我们介绍了在线学习中强化学习的难点。特别地,我们讨论了探测-利用两难的问题,以及如何使用重新开局的记忆模块。

 

在第九章节,我们总体介绍了现有的评估强化学习的基准。而且,我们介绍了一系列最佳的实际经验,来确保在不同基准下获得的结果的一致性和可复现性。

 

第十章节中,我们介绍了比MDP更加普适的设定:

 

(1)部分可观测马尔可夫决策过程(POMDP),

(2)迁移学习下的MDPs的分布,

(3)无显式表达的奖励函数以及

(4)多主体系统。我们介绍了如何在这些设定下使用深度迁移学习。

 

第十一章节,我们介绍了深度强化学习中更广的研究领域。包括在不同领域下对深度强化应用的讨论,以及已经实现的成功和尚未解决的问题。这部分将会包括对深度强化学习和神经科学的简单的讨论。

 

最后,我们在第十二章节总结,并展望深度强化学习研究的未来研究方法,应用方法,已经深度强化学习和人工智能的社会影响。

 

阅读更多,欢迎关注公众号:论文收割机(paper_reader)
原文链接:深度强化学习简介

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值