深度强化学习研究笔记（2）——Q-learning（Q-learning问题描述，Q-table方法，一个Python小例子）

最新推荐文章于 2024-08-11 21:22:00 发布

越野者

最新推荐文章于 2024-08-11 21:22:00 发布

阅读量7.8k

点赞数 14

分类专栏：深度学习（Deep learning）强化学习（Reinforcement learning）文章标签：深度学习强化学习 Q-learning Q-table 学习笔记

本文链接：https://blog.csdn.net/discoverer100/article/details/88352624

版权

本文深入探讨Q-learning，一种基于价值函数的强化学习方法。通过Q-table学习，阐述Q-value的更新过程，展示了一个使用Python实现Q-learning解决路径规划问题的示例，最终得出能够指导agent自主行动的Q-table。

摘要由CSDN通过智能技术生成

文章目录

1. Q-learning问题描述
2. Q-learning的一种典型实现方法及示例（Q-table查表法）
3. 利用Q-learning得到的Q-table进行验证（让agent独立行走）
4. 代码实现（Python 2和Python 3均支持）
5. 小结

1. Q-learning问题描述

Q-learning是一种典型的基于价值（Value）函数的强化学习方法，其中的Q是一个数值（可以理解为价值value），通常在初始化时有可能被赋予一个任意数值（因问题场景而异），在迭代时刻 $t$ ，我们有状态 $s_t$ ，此时代理做出动作 $a_t$ ，然后得到奖励 $r_t$ ，从而进入到一个更新的状态 $s_{t+1}$ ，从而Q值得到更新，其更新公式为：

$Q\left( { {s_t},{a_t}} \right) \leftarrow \left( {1 - \alpha } \right) \cdot \underbrace {Q\left( { {s_t},{a_t}} \right)}_{ {\text{old}}\;{\text{value}}} + \underbrace \alpha _{ {\text{learnig}}\;{\text{rate}}} \cdot \overbrace {\left( {\underbrace { {r_t}}_{ {\text{reward}}} + \underbrace \gamma _{ {\text{discount}}\;{\text{factor}}} \cdot \underbrace {\mathop {\max }\limits_a Q\left( { {s_{t + 1}},a} \right)}_{ {\text{estimate}}\;{\text{of}}\;{\text{optimal}}\;{\text{future}}\;{\text{value}}}} \right)}^{ {\text{learned}}\;{\text{value}}} \tag {1}$