强化学习(Reinforcement Learning)中的Q-Learning、DQN，面试看这篇就够了！

最新推荐文章于 2024-08-10 16:16:57 发布

mantchs

最新推荐文章于 2024-08-10 16:16:57 发布

阅读量4.6k

点赞数 3

分类专栏： machine learning 文章标签：强化学习 Reinforcement Learning Q-Learning DQN 神经网络

本文链接：https://blog.csdn.net/weixin_41510260/article/details/99707207

版权

本文深入浅出地介绍了强化学习的基本概念，包括马尔可夫决策过程、Q-Learning算法和Deep Q Network（DQN）。通过解释打折的未来奖励和贝尔曼公式，展示了Q-Learning如何迭代近似Q函数。此外，DQN通过神经网络解决了状态空间过大的问题，实现了更高效的学习。最后，对比了强化学习与监督学习、无监督学习的区别，并简要提到了多任务学习的应用。

摘要由CSDN通过智能技术生成

文章目录

1. 什么是强化学习

其他许多机器学习算法中学习器都是学得怎样做，而强化学习（Reinforcement Learning, RL）是在尝试的过程中学习到在特定的情境下选择哪种行动可以得到最大的回报。在很多场景中，当前的行动不仅会影响当前的rewards，还会影响之后的状态和一系列的rewards。RL最重要的3个特定在于：

基本是以一种闭环的形式；
不会直接指示选择哪种行动（actions）；
一系列的actions和奖励信号（reward signals）都会影响之后较长的时间。

强化学习（Reinforcement Learning, RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题 [1] 。

上图中agent代表自身，如果是自动驾驶，agent就是车；如果你玩游戏它就是你当前控制的游戏角色，如马里奥，马里奥往前走时环境就一直在发生变化，有小怪物或者障碍物出现，它需要通过跳跃来进行躲避，就是要做action（如向前走和跳起的动作）；无人驾驶的action就是车左转、右转或刹车等等，它无时无刻都在与环境产生交互，action会反馈给环境，进而改变环境，如果自动驾驶的车行驶目标是100米，它向前开了10米，那环境就发生了变化，所以每次产生action都会导致环境改变，环境的改变会反馈给自身（agent），就是这样的一个循环；反馈又两种方式：