深度强化学习

https://www.toutiao.com/a6652493457161978376/

2019-01-31 11:12:13

深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输入的图像进行控制,是一种更接近人类思维方式的人工智能方法。

简介

深度强化学习

 

深度强化学习的框架

深度学习具有较强的感知能力,但是缺乏一定的决策能力;而强化学习具有决策能力,对感知问题束手无策。因此,将两者结合起来,优势互补,为复杂系统的感知决策问题提供了解决思路。

原理框架

DRL是一种端对端(end-to-end)的感知与控制系统,具有很强的通用性.其学习过程可以

深度强化学习

 

DRL原理框架

描述为:

(1)在每个时刻agent与环境交互得到一个高维度的观察,并利用DL方法来感知观察,以得到具体的状态特征表示;

(2)基于预期回报来评价各动作的价值函数,并通过某种策略将当前状态映射为相应的动作;

(3)环境对此动作做出反应,并得到下一个观察.通过不断循环以上过程,最终可以得到实现目标的最优策略.

DRL原理框架如图所示。

基于卷积神经网络的深度强化学习

由于卷积神经网络对图像处理拥有天然的优势,将卷积神经网络与强化学习结合处理图像数据的感知决策任务成了很多学者的研究方向。

深度Q网络是深度强化学习领域的开创性工作。它采用时间上相邻的4帧游戏画面作为原始图像输入,经过深度卷积神经网络和全连接神经网络,输出状态动作Q函数,实现了端到端的学习控制。

深度Q网络使用带有参数θ的Q函数Q(s, a; θ)去逼近值函数。迭代次数为i 时,损失函数为

其中

θi代表学习过程中的网络参数。经过一段时间的学习后, 新的θi更新θ−。

基于递归神经网络的深度强化学习

深度强化学习面临的问题往往具有很强的时间依赖性,而递归神经网络适合处理和时间序列相关的问题。强化学习与递归神经网络的结合也是深度强化学习的主要形式。

对于时间序列信息,深度Q网络的处理方法是加入经验回放机制。但是经验回放的记忆能力有限,每个决策点需要获取整个输入画面进行感知记忆。将长短时记忆网络与深度Q网络结合,提出深度递归Q网络(deep recurrent Q network,DRQN),在部分可观测马尔科夫决策过程(partiallyobservable Markov decision process, POMDP)中表现出了更好的鲁棒性,同时在缺失若干帧画面的情况下也能获得很好的实验结果。

受此启发的深度注意力递归Q网络(deep attentionrecurrent Q network, DARQN)。它能够选择性地重点关注相关信息区域,减少深度神经网络的参数数量和计算开销。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
强化学习是一种机器学习的方法,通过学习者与环境进行互动,通过试错的过程来最大化预期的奖励。而深度强化学习则是将深度神经网络与强化学习相结合的一种方法。 在深度强化学习中,深度神经网络被用作函数近似器,用于学习一个策略函数,以将观测值映射到动作空间中的动作。与传统的强化学习方法相比,深度强化学习具有更高的表达能力和自适应性,能够从原始的感知数据中直接进行学习。 深度强化学习的核心思想是通过使用深度神经网络来近似值函数或者策略函数,并通过与环境的交互来不断更新网络参数,使得网络的输出能够最大化预期的奖励。具体来说,深度强化学习可以通过以下步骤来进行: 1. 初始化深度神经网络的参数,并定义网络的结构和学习算法。 2. 将当前的状态输入到神经网络中,获得网络的输出,即当前的动作。 3. 根据选择的动作与环境进行交互,获取下一个状态和奖励信号。 4. 根据当前状态、动作、奖励信号等信息,更新神经网络的参数,使得网络的输出能够更好地预测奖励。 5. 不断重复步骤2-4,直到达到预设的训练次数或达到收敛条件。 深度强化学习在很多领域都取得了重要的突破,例如在游戏领域中,AlphaGo就是通过深度强化学习实现了对人类围棋冠军的击败。此外,深度强化学习也被广泛应用于机器人控制、自动驾驶等领域,取得了显著的成果。 总而言之,深度强化学习是一种结合了深度神经网络和强化学习的方法,能够从原始的感知数据中直接进行学习,并取得了广泛的应用和重要的突破。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值