第一章、Q-learning

跳跳糖炒酸奶

已于 2025-05-20 17:24:35 修改

阅读量978

点赞数 17

分类专栏：强化学习算法文章标签：人工智能 ubuntu python

于 2025-05-20 13:32:26 首次发布

本文链接：https://blog.csdn.net/m0_47719040/article/details/148068959

版权

强化学习算法专栏收录该内容

2 篇文章

订阅专栏

0 前言

Q学习是一种无模型的离散异策略（off-policy）算法，它使用Q表格来处理离散观测和动作空间。
注：off-policy是指收集经验放回池的策略和最后控制智能体的目标策略不同。

在阅读下述内容之前，假设你以理解以下概念及内容：状态空间、动作空间、奖励、折扣回报、动作价值函数、最优动作价值函数及TD误差等。

1、Q-learning

强化学习的目的实际上都是根据目前的状态 $s_t$ 推测出应该选择什么样的动作 $a_t$ 。只不过不同的算法达到该目的的途径是不同的。

Q-learning和DQN都是通过获取（训练）一个最优动作价值函数 $Q_{\star}(s,a)$ 来得到对应的状态下应该做什么动作这件事情。

2、表格形式的Q-learning

假设状态空间 $S$ 和动作空间 $A$ 都是有限集合，那面动作价值函数就可以表示为如下的表格即 $Q_{\pi}(s_t,a_t)$ ：
(一个显而易见的问题是那怎么获取最优动作价值函数（也可以叫最优动作价值表格）呢？)

状态/动作	$a_1$ （第一种动作）	$a_2$ （第二种动作）	$a_3$ （第三种动作）	$a_4$ （第四种动作）
$s_1$ （第一种状态）	380	-95	20	173
$s_2$ （第二种状态）	-7	64	-195	210
$s_3$ （第三种状态）	152	72	413	-80

3、获取最优动作价值函数

初始化动作价值函数表格，可以让它是全零的表格。
用表格形式的Q学习算法更新表格，每次更新表格的一个元素。
最终表格会收敛到最优动作价值函数。

具体做法：

step1：收集训练数据，实际上就是建立经验放回池。

经验放回池中是一系列的 $s_t,a_t,r_t,s_{t+1})$ 的四元组。
经验放回池的获取可以通过任意的策略获取，通常选择 $\epsilon-greedy$ 策略，该策略如下：

$a_t=\begin{cases}argmax_a\widetilde{Q}(s_t,a) \quad\quad当概率\geq \epsilon\\均匀抽取动作空间中的一个动作 \quad\quad 当概率<\epsilon\end{cases}$

此处我们联动一下skrl中的智能体DQN，会发现Decision making基本上与上述内容契合
在这里插入图片描述

step2:基于经验放回池更新表格
注意这里更新表格的时候，每次只更新一个元素。若记 $s_t,a_t)$ 位置的当前值为 $\widetilde{Q}_{now}(s_t,a_t)$ 更新后为 $\widetilde{Q}_{new}(s_t,a_t)$

已知四元组序列为 $s_t,a_t,r_t,s_{t+1})$
1、记 $\hat{q}_t=\widetilde{Q}_{now}(s_t,a_t)$
2、记 $s_{t+1}$ 状态下，最大值为 $\hat{q}_{t+1}=max_a\widetilde{Q}_{now}(s_{t+1},a_t)$
3、记 $\hat{y}_t=r_t+\gamma \cdot \hat{q}_{t+1}$ ，我们的目标实际上是希望 $\hat{q}_t$ 越接近 $\hat{y}_t$ 越好，因此记 $\delta_t=\hat{q}_t-\hat{y}_t$
4、更新 $\widetilde{Q}_{new}(s_t,a_t)=\widetilde{Q}_{now}(s_t,a_t)-\alpha\cdot \delta_t$

此处我们联动一下skrl中的智能体DQN，会发现Learning algorithm基本上与上述内容契合
在这里插入图片描述
skrl中的代码案例

models = {}
models["policy"] = EpilonGreedyPolicy(env.observation_space, env.action_space, device, num_envs=env.num_envs, epsilon=0.1)
cfg = Q_LEARNING_DEFAULT_CONFIG.copy()
cfg["discount_factor"] = 0.999
cfg["alpha"] = 0.4
# logging to TensorBoard and write checkpoints (in timesteps)
cfg["experiment"]["write_interval"] = 1600
cfg["experiment"]["checkpoint_interval"] = 8000
cfg["experiment"]["directory"] = "runs/torch/FrozenLake"

agent = Q_LEARNING(models=models,
                   memory=None,
                   cfg=cfg,
                   observation_space=env.observation_space,
                   action_space=env.action_space,
                   device=device)