入门强化学习（Q-learning→DQN→DDQN）

最新推荐文章于 2025-04-30 16:32:41 发布

⊙月

最新推荐文章于 2025-04-30 16:32:41 发布

阅读量5k

点赞数 18

分类专栏：主流算法解析

本文链接：https://blog.csdn.net/weixin_42118657/article/details/119460126

版权

主流算法解析专栏收录该内容

25 篇文章

订阅专栏

本文通过《飞翔小鸟》游戏，深入浅出地介绍了强化学习的基本原理，如Q-learning算法，并探讨其在游戏中的应用。接着，针对Q-learning在高维状态空间的局限性，引入了深度强化学习（DQN）的概念，阐述了DQN如何使用CNN网络解决状态维数爆炸的问题。此外，还详细解释了Double-DQN（DDQN）算法的优化之处，并展示了DDQN在OpenLock任务中的应用，讨论了如何设计智能体来解决复杂解锁问题。通过本文，读者将对强化学习和深度强化学习有更深入的理解，并能掌握在实际问题中应用这些算法的基本思路。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基础：

只要具备CNN分类算法的基本认识。

讲解内容：

内容主要通过《飞翔小鸟》游戏为例，探究如下2个问题：
- 强化学习原理：以Q-learning算法为例。
- 深度强化学习原理：以DQN、DDQN算法为例。
然后大概讲下DDQN算法，如何在更复杂的解锁任务中应用和设计。

学完收获：

认真看完所有细节内容，基本就能了解一种强化学习和一种深度强化学习的整个过程，其他算法可以举一反三。

备注：由于资料大多从PPT中截取出来，转成文章可能会有一些不理解的地方，如有细节疑问可以留言提出来。

0 应用背景

《飞翔小鸟》是一款简单的手机游戏：

操作：唯一的操作是手指点击屏幕。
操作效果：每点击一下，画面中小鸟就挥动一下翅膀往上突然蹬飞一下（非匀速运动！），如果不点击屏幕，小鸟就会做自由落体运动。小鸟不能前后移动，只能上下飞翔或自由落体，背景画面会匀速从左网友移动。
游戏得分：你唯一要做的就是让小鸟不撞上那些绿色的管道，每通过一个管道口，分数+1。
游戏操作难点：小鸟蹬飞速度是非匀速的，先快后慢。然后下降速度也是非匀速的自由落地。图中通道口每次出现位置随机，如果前后两个通道口高度差较大，那么就要在短时间内让小鸟快速爬升，并恰当好的下降回去。

1 强化学习原理

强化学习定义：

强化学习（Reinforcement Learning, RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

强化学习要素：

强化学习中有状态（state）、动作（action）、奖赏（reward）这三个要素。

强化学习如何发挥作用：

智能体（Agent）会根据当前状态来采取动作，并记录被反馈的奖赏，以便下次再到相同状态时能采取更优的动作。

Q-Learning算法怎么自己玩《飞翔小鸟》

利用Q-Learning强化学习算法，我们可以让智能体程序去玩《小鸟飞翔》游戏。

Q-Learning是强化学习算法中value-based的算法，Q即为Q-table（一个价值表）就是在某一时刻的 s 状态下，采取动作 a 能够获得收益的期望，环境会根据agent的动作反馈相应的奖励 r，所以算法的主要思想就是将 State 与 Action 构建成一张 Q-table 来存储Q值，然后根据Q值来选取能够获得最大的收益的动作。

针对《小鸟飞翔》游戏，我们对强化学习三要素建模如下：