深度强化学习

深度强化学习(Deep Reinforcement Learning, DRL)结合深度学习的感知能力和强化学习的决策能力,能处理高维输入并实现端到端控制。DRL框架包括观察、状态特征提取、动作决策和策略优化。常见的模型有基于卷积神经网络的DQN,利用经验回放和目标网络改进Q值学习;以及基于递归神经网络的DRQN,适用于处理时间序列信息。此外,DRL还可分为基于值函数(如DQN)和基于策略梯度的方法,后者直接优化策略期望总奖赏,应用更为广泛。" 128172980,8449867,ecology前端获取明细行数与循环,"['前端开发', 'ecology', '框架']
摘要由CSDN通过智能技术生成

一、简介

1、深度强化学习出现的原因

传统的强化学习中当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值。然而比较复杂的、更加接近实际情况的任务则往往有着很大的状态空间和连续的动作空间,这种情况下使用Q-Table不现实。同时实现端到端的控制也是要求能处理高维的,如图像、声音等的数据输入。而前些年开始兴起的深度学习,刚好可以应对高维的输入,如果能将两者结合,那么将使智能体同时拥有深度学习的理解能力和强化学习的决策能力。

2、深度强化学习的简介 

深度学习具有较强的感知能力,但是缺乏一定的决策能力;而强化学习具有决策能力,对感知问题束手无策。因此,深度强化学习(Deep Reinforcement Learning)将深度学习的感知能力和强化学习的决策能力相结合,优势互补,可以直接从高维原始数据学习控制策略,是一种更接近人类思维方式的人工智能方法。

深度强化学习通常做法是把Q-Table的更新问题变成一个函数拟合问题,相近的状态得到相近的输出

  • 1
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值