深度强化学习

最新推荐文章于 2024-05-15 17:40:26 发布

count_on_me

最新推荐文章于 2024-05-15 17:40:26 发布

阅读量8.6k

点赞数 1

分类专栏：强化学习

本文链接：https://blog.csdn.net/count_on_me/article/details/82956746

版权

深度强化学习（Deep Reinforcement Learning, DRL）结合深度学习的感知能力和强化学习的决策能力，能处理高维输入并实现端到端控制。DRL框架包括观察、状态特征提取、动作决策和策略优化。常见的模型有基于卷积神经网络的DQN，利用经验回放和目标网络改进Q值学习；以及基于递归神经网络的DRQN，适用于处理时间序列信息。此外，DRL还可分为基于值函数（如DQN）和基于策略梯度的方法，后者直接优化策略期望总奖赏，应用更为广泛。" 128172980,8449867,ecology前端获取明细行数与循环,"['前端开发', 'ecology', '框架']

摘要由CSDN通过智能技术生成

一、简介

1、深度强化学习出现的原因

传统的强化学习中当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值。然而比较复杂的、更加接近实际情况的任务则往往有着很大的状态空间和连续的动作空间，这种情况下使用Q-Table不现实。同时实现端到端的控制也是要求能处理高维的，如图像、声音等的数据输入。而前些年开始兴起的深度学习，刚好可以应对高维的输入，如果能将两者结合，那么将使智能体同时拥有深度学习的理解能力和强化学习的决策能力。

2、深度强化学习的简介

深度学习具有较强的感知能力，但是缺乏一定的决策能力；而强化学习具有决策能力，对感知问题束手无策。因此，深度强化学习（Deep Reinforcement Learning）将深度学习的感知能力和强化学习的决策能力相结合，优势互补，可以直接从高维原始数据学习控制策略，是一种更接近人类思维方式的人工智能方法。

深度强化学习通常做法是把Q-Table的更新问题变成一个函数拟合问题，相近的状态得到相近的输出