Q-learning

@STEM

已于 2024-01-03 16:00:14 修改

阅读量529

点赞数 14

分类专栏：强化学习文章标签：算法

于 2024-01-03 14:40:21 首次发布

本文链接：https://blog.csdn.net/weixin_43233172/article/details/135278006

版权

2 篇文章 0 订阅

订阅专栏

本文详细介绍了Q-learning算法，包括其在离散状态和动作空间中的应用，目标策略与行为策略的区别，以及Q值函数在决策过程中的核心作用。重点阐述了ε-贪婪策略和算法步骤，以及参数设置如步长大小α和ε的运用。

摘要由CSDN通过智能技术生成

状态和动作空间离散，数量少，可选择Q-learning算法。
Q学习是一种异策略，有两种不同的策略：目标策略和行为策略。目标策略是需要去学习的策略，根据经验来学习最优的策略，不需要和环境进行交互。行为策略是探索环境的策略。
目标策略直接在Q表格上使用贪心策略取它下一步能得到的所有状态。
行为策略可以是一个随机的策略，但是可以采用ε-贪心策略，让行为不至于是完全随机的，而是基于Q-表格逐渐改进的。
在每个时间步，智能体执行一个动作后，环境会给予智能体一个奖励信号，表示这个动作的好坏。
Q值函数是Q学习的核心，它表示在给定状态下采取特定动作所获得的期望累积奖励。Q值通常表示为Q(s, a)，其中s表示状态，a表示动作。

关注