Q-learning算法实践

宜信技术学院

于 2018-10-24 10:57:54 发布

阅读量9.9k

点赞数 6

文章标签：人工智能智能学习机器人学习

本文链接：https://blog.csdn.net/gao2175/article/details/83340449

版权

本文介绍如何应用Q-learning算法解决经典Markov决策问题——走迷宫。项目涉及强化学习基础，Q值计算，epsilon-greedy策略以及代码实现。通过训练，机器人学习避开陷阱，找到迷宫出口。文章还提供了训练过程的可视化和相关参数调整。

摘要由CSDN通过智能技术生成

我们将会应用 Q-learning 算法完成一个经典的 Markov 决策问题 -- 走迷宫！

项目描述：

在该项目中，你将使用强化学习算法，实现一个自动走迷宫机器人。

如上图所示，智能机器人显示在右上角。在我们的迷宫中，有陷阱（红色炸弹）及终点（蓝色的目标点）两种情景。机器人要尽量避开陷阱、尽快到达目的地。
小车可执行的动作包括：向上走 u、向右走 r、向下走 d、向左走 l。
执行不同的动作后，根据不同的情况会获得不同的奖励，具体而言，有以下几种情况。
- 撞到墙壁：-10
- 走到终点：50
- 走到陷阱：-30
- 其余情况：-0.1
我们需要通过修改 robot.py 中的代码，来实现一个 Q Learning 机器人，实现上述的目标。

Section 1 算法理解

1. 1 强化学习总览

强化学习作为机器学习算法的一种，其模式也是让智能体在“训练”中学到“经验”，以实现给定的任务。但不同于监督学习与非监督学习，在强化学习的框架中，我们更侧重通过智能体与环境的交互来学习。通常在监督学习和非监督学习任务中，智能体往往需要通过给定的训练集，辅之以既定的训练目标（如最小化损失函数），通过给定的学习算法来实现这一目标。然而在强化学习中，智能体则是通过其与环境交互得到的奖励进行学习。这个环境可以是虚拟的（如虚拟的迷宫），也可以是真实的（自动驾驶汽车在真实道路上收集数据）。

在强化学习中有五个核心组成部分，它们分别是：环境（Environment）、智能体（Agent）、状态（State）、动作（Action）和奖励（Reward）。在某一时间节点t：

智能体在从环境中感知其所处的状态
智能体根据某些准则选择动作
环境根据智能体选择的动作，向智能体反馈奖励

通过合理的学习算法，智能体将在这样的问题设置下，成功学到一个在状态选择动作的策略。

1.2 计算Q值

在我们的项目中，我们要实现基于 Q-Learning 的强化学习算法。Q-Learning 是一个值迭代（Value Iteration）算法。与策略迭代（Policy Iteration）算法不同，值迭代算法会计算每个”状态“或是”状态-动作“的值（Value）或是效用（Utility），然后在执行动作的时候，会设法最大化这个值。因此，对每个状态值的准确估计，是我们值迭代算法的核心。通常我们会考虑最大化动作的长期奖励，即不仅考虑当前动作带来的奖励，还会考虑动作长远的奖励。

在 Q-Learning 算法中，我们把这个长期奖励记为 Q 值，我们会考虑每个 ”状态-动作“ 的 Q 值，具体而言，它的计算公式为：

也就是对于当前的“状态-动作” ，我们考虑执行动作后环境给我们的奖励

最低0.47元/天解锁文章

宜信技术学院

关注

6
点赞
踩
42

收藏

觉得还不错? 一键收藏
2
评论
Q-learning算法实践

我们将会应用 Q-learning 算法完成一个经典的 Markov 决策问题 -- 走迷宫！项目描述：在该项目中，你将使用强化学习算法，实现一个自动走迷宫机器人。如上图所示，智能机器人显示在右上角。在我们的迷宫中，有陷阱（红色炸弹）及终点（蓝色的目标点）两种情景。机器人要尽量避开陷阱、尽快到达目的地。小车可执行的动作包括：向上走u、向右走r、向下走d、向左走...
复制链接

扫一扫