揭秘深度强化学习-1简述

看完觉得深受启发的一篇文章,根据自己的理解翻译过来留以后再次翻看

原文地址http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/

某年某月某一天,DeepMind在Arxiv上发表论文“Playing Atari with Deep Reinforcement Learning”。在这篇论文中,他们证明了一台计算机是如何只通过 观察屏幕的像素点 和 游戏分数增加时获得奖励 来学习玩Atari 2600 游戏的。效果非常显著,因为不同的游戏拥有不同的玩法,而他们就用同一个模型,学习了7个不同的游戏,并且其中3个都表现的比人更优秀!

这是历史性的一刻,作为面向通用AI的第一步:一个AI可以在不同的环境中工作,而不是被严格的限制在某个特定规则下(就像之前的象棋AI)。之后他们的论文“Human-level control through deep reinforcement learning”被发表在Nature上,这是当下最具权威的科学杂志之一。在这篇论文中,他们应用了同样的模型在49个不同的游戏中并且半数都达到了超人水准。

当关于监督学习和无监督学习的深度学习模型已经在社会上被广泛应用时,深度强化学习仍然是个迷。在这篇文章中我将会试图揭秘这项技术并且让大家理解其背后的理论基础。本文面向的读者是那些已经有关于机器学习和神经网络的基础,但是还没有时间来研究强化学习的吃瓜群众。

本文将按如下路线讲解:

1.什么是强化学习的主要挑战:在这里,我们将会涉及证明 分布问题 和 探索-利用两难问题

2.如何给出强化学习的数学公式:我们将会介绍马尔科夫决策过程并且以此论证强化学习的理论依据

3.如何处置长期策略:我们将会定义“衰减未来奖励”,这构成了在下一章节中算法的基石

4.如何评估或渐进未来奖励:简单的基于表的Q-learning算法将在这里进行阐述

5.如果我们的状态空间过于庞大怎么办:这里我们看如何用一个(深度)神经网络来替代Q表

6.还有什么技巧可在实际应用时使用:经验回放技巧将在这里讨论,它将使学习的神经网络变得稳定

7.这样就足够了吗:最后我们将会考虑一些关于 探索-利用 两难问题的简单解决方法

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值