深度强化学习

                                  深度强化学习(Deep Reinforcement Learning)

内容目录:

         强化学习与深度学习都属于机器学习范畴,强化学习主要用来解决连续决策问题(比如:通过算法决定机器人的电机做出怎样的动作、设计一个逻辑实现模型玩游戏的功能、在棋盘游戏中与人类对战等,最典型的就是围棋以及其它棋盘游戏)。强化学习受到了生物能够有效地适应环境的启发,能够在复杂的、不确定的环境中通过试错的机制与环境进行交互,并学习到如何实现我们设定的目标。

  1. 深度强化学习基本概念
  2. 深度强化学习的思路
  3. 深度强化学习的典型应用场景
  4. 深度强化学习的数学分析(深度Q学习为例)

    1.深度强化学习基本概念

         强化学习包含的3个概念:环境状态(Environment State)、动作(Action)和奖惩(Reward)。以围棋为例:环境状态就是整个已经形成的棋局,行动是指强化学习模型在某个位置落子,奖惩就是当前这步棋获得的目数(围棋中存在不确定性,在对弈时获得估计的目数。为了赢得最终胜利,需要在结束对弈时总目数超过对手)。强化学习模型需要根据环境状态、行动和奖惩,学习出最佳落子策略,并且在结束时的总目数超过对手为目标,即不能只看每一个落子的行动所带来的奖惩,还要看这个行动在未来的潜在价值(这个动作对后面几个动作的影响)

         强化学习目标:在回报的奖惩中获得较多的累计奖励,简单点说,模型在训练过程中不断做出尝试性的决策,错了惩罚,对了奖励,由此训练得到在各个状态环境状态中比较好的决策。

注意:强化学习不像无监督学习那样完全没有目标,也不像监督学习那样有明确的目标(如图像分类中的label),强化学习目标是不明确的,模型只会向着能够得到更多奖励的方向去学习。

          2.深度强化学习的思路

强化学习有几十年的历史,经历了人工智能和神经网络的兴衰。发展情况大体如下:

1956年Bellman提出动态规划方法(可认为强化学习起源)。

1977年Werbos在动态规划的基础上提出了自适应的动态规划方法。(受限于当时硬件技术,该方未普及)。

1989年Watkins 提出Q(状态-动作值函数)学习方法,这是最早的在线强化学习方法,也是强化学习中最重要算法之一。

1992年Watkins和Dayan共同证明了Q算法的收敛性。

1999年Thrum提出了部分可观测的马尔科夫决策过程中的蒙特卡洛方法

2006年Kocsis提出了置信上限树算法。

2014年Sliver等提出了确定性策略梯度算法。

 

在人工智能领域,通常以感知、认知和决策能力作为智能的衡量指标。深度学习(实现了深度学习算法的神经网络)使得硬件对外界的识别感知能力(图像、语音信息识别)得到了巨大的提升。强化学习的试错机制表明它可以不断与环境进行交互,在决策能力持续获取收益为目标的前提下得到最优的决策。深度强化学习结合了深度学习的感知能力和强化学习的决策能力,从而可以使硬件设备直接根据输入的信息(视频、图像、语音、文字)做出一系列动作。从工作方式来看,这种学习模式更像是一种模拟了人类思维方式的人工智能实现。下图展示了实现深度强化学习过程的原理框架。

                                     

      下图展示了深度强化学习中的动作——评判框架。就目前来说,以深度学习算法为核心的模型都可以通过动作——评判框架来表示。图中的动作模块相当于一个执行机构,输入外部状态s,输出动作a;评判模块相当于一个认知机构,根据历史的动作和回馈r进行更新,即自我调整,然后影响整个运动模块。

      在动作——评判框架指导下,2013年Google DeepMind结合强化学习中的Q学习算法与深度学习,提出了DQN(Deep Q-Network深度Q)。DOA可以看做是第一个运用了深度强化学习算法的网络模型,它可以自动玩Atari系列的游戏,并且达到人类水平。借鉴DQN的一些成果,DeepMind将策略网络(Policy Network)、估值网络(Value Network,即DQN)与蒙特卡罗搜索树(Monte Carlo Tree Search)结合起来,实现了具有超高水平的围棋对战程序-----AlphaaGo.AlphaaGo首次出现在2015年,一经出现就取得了不错的对战战绩。

      除了DQN深度强化学习算法之外,DeepMind还在2015年、2016年11月提出了A3C和UNREAL两大深度强化学习算法。


  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
强化学习是一种机器学习的方法,通过学习者与环境进行互动,通过试错的过程来最大化预期的奖励。而深度强化学习则是将深度神经网络与强化学习相结合的一种方法。 在深度强化学习中,深度神经网络被用作函数近似器,用于学习一个策略函数,以将观测值映射到动作空间中的动作。与传统的强化学习方法相比,深度强化学习具有更高的表达能力和自适应性,能够从原始的感知数据中直接进行学习。 深度强化学习的核心思想是通过使用深度神经网络来近似值函数或者策略函数,并通过与环境的交互来不断更新网络参数,使得网络的输出能够最大化预期的奖励。具体来说,深度强化学习可以通过以下步骤来进行: 1. 初始化深度神经网络的参数,并定义网络的结构和学习算法。 2. 将当前的状态输入到神经网络中,获得网络的输出,即当前的动作。 3. 根据选择的动作与环境进行交互,获取下一个状态和奖励信号。 4. 根据当前状态、动作、奖励信号等信息,更新神经网络的参数,使得网络的输出能够更好地预测奖励。 5. 不断重复步骤2-4,直到达到预设的训练次数或达到收敛条件。 深度强化学习在很多领域都取得了重要的突破,例如在游戏领域中,AlphaGo就是通过深度强化学习实现了对人类围棋冠军的击败。此外,深度强化学习也被广泛应用于机器人控制、自动驾驶等领域,取得了显著的成果。 总而言之,深度强化学习是一种结合了深度神经网络和强化学习的方法,能够从原始的感知数据中直接进行学习,并取得了广泛的应用和重要的突破。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

图灵追慕者

您的支持是我写作分享最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值