强化学习的数学基础3---Q-Learning

最新推荐文章于 2024-07-14 16:31:56 发布

Erick_Lv

最新推荐文章于 2024-07-14 16:31:56 发布

阅读量1k

点赞数

分类专栏：机器学习数学基础文章标签：强化学习 Q-Learning

本文链接：https://blog.csdn.net/qq_35976351/article/details/89067174

版权

机器学习数学基础专栏收录该内容

9 篇文章 8 订阅

订阅专栏

Q-Learning基础

笔记整理自李宏毅老师的公开课

基础知识

在之前的笔记关于Policy Gradient和PPO方法中，需要学习的是某个策略 $\pi$ 。给定出一个策略网络 $\pi$ ，然后令计算机通过不断地训练策略网络，来实现智能。训练的过程中，更新迭代的也是策略网络的参数。

而Q-Learning中，不是直接训练策略网络 $\pi$ ，而是给学习一个Crtic，该Critic用于评估Agent做出的每个选择的评估值。

Q-Learning的核心在于一个Q-Function： $Q^{\pi}(s_t,a )$ 。该函数的意义是，在状态 $s_t$ 下，如果选择了行动 $a$ ，该函数会得到的返回值，其中 $\pi$ 表示某种策略或者说是Actor。注意， $s_t$ 状态下选择行动 $a$ ，是由 $Q$ 函数决定的，此时如果让策略 $\pi$ 来选择行动，则不一定是行动 $a$ 。在选择 $a$ 之后，此时再令 $\pi$ 自己玩下去，知道游戏终结，返回结果作为 $Q$ 的值。

再给出一个评估函数 $V^{\pi}(s)$ ，该函数作用是评定某个Actor $\pi$ 在状态 $s$ 下的分数，分数越高说明对 $\pi$ 越有利。评估的方式一般有两个：

Monte-Carlo方式：让 $\pi$ 一直与环境进行互动，每次互动都会有相应的结果，直到最后会有一个结果总和 $G$ 。之后，令 $V^{\pi}(s)$ 与 $G$ 进行比较产生误差，利用误差进行修正 $V$ 的神经网络。但是，这个方法要求必须玩到游戏结束才能进行网络训练，有些时间太长的游戏不太适合这个方式。而且，这个方式的Variance比较大，因为游戏和状态选择本省就有较大的随机性。
Temporal-difference方式：在游戏流程 $\cdots,s_t,a_t,r_t,s_{t+1},\cdots$ 中，有核心公式 $V^{\pi}(s_t)=V^{\pi}(s_{t+1})+r_t$ ，其中 $r_t$ 表示在 $s_t$ 状态采取行动 $a_t$ 后得到的回报。那么利用上述公式，可以直接训练评估网络。但是，这个方式的缺点在于 $V^{\pi}$ 评估不一定是准确的。

实际中，TD方式比较常用。

$Q^{\pi}(s,a)$ 网络有两种输入和输出方式：

把状态 $s$ 作为输入，输出每个 $a$ 的值。这种方式比较适合离散有限个 $a$ 的情况
把状态 $s$ 和采取的 $a$ 作为输入，输出一个标量值，作为 $s$ 状态下采取 $a$ 行动的评估值。适合无限连续状态的情景

使用Q-Learning做RL的基本步骤：

$\pi$ 与环境互动。
通过MC或者TD的方式，学习出 $Q^{\pi}(s,a)$ 。
找到一个更好的 $\pi^{'}$ ，并令 $\pi=\pi{'}$ 。之后继续步骤1

补充，更新 $\pi^{'}$ 的公式：
$\pi^{'}=\mathop{arg\ max}_a Q^{\pi}(s,a)$
有两点需要注意：

$\pi^{'}$ 没有提取任何参数，它由 $Q$ 决定
这种方式不适合连续的action

Exploration策略

$\epsilon-Greedy$ 策略：
$action=\begin{cases} \mathop{arg\ max}_a Q^{\pi}(s,a), & 1-\epsilon\\ random\ action, & \epsilon \\ \end{cases}$
其中 $\epsilon \in(0,1)$ ，是一个概率。

Boltzmann Exploration策略：
$P(a|s)=\frac{\exp{(Q(s,a))}}{\sum_a\exp {(Q(s,a))}}$
选择策略时，是借助概率进行的。

Replay Buffer策略

每次都把数据存储到一固定buffer中，训练的时候，从buffer中随机选取一个批次进行训练。如果buffer满了，则用新的数据更替就的数据。

Q-Learning一般性的算法

初始化Q-function $Q$ ，目标Q-function $\hat{Q}=Q$
不断进行迭代：
- 对于一次迭代中的每一步，进行如下操作：
  - 对于一次迭代中的某个状态 $s_t$ ，根据 $Q$ 选择 $a_t$ ，这是依赖于Exploration（见下文）策略的选择
  - 获取这一步的奖励 $r_t$ ，并到达下一个状态 $s_{t+1}$
  - 把 $s_t,a_t,r_t,s_{t+1})$ 存储到一个buffer中（Replay buffer策略见下文）
  - 从buffer中，选取一个批次的 $s_i,a_i,r_i,s_{i+1})$
  - 目标函数 $y=r_i+\mathop{max}_a \hat{Q}(s_{i+1},a)$
  - 更新 $Q$ 的参数，使得 $Q(s_i,a_i)$ 接近 $y$
  - 每进行 $C$ 步，更新 $\hat {Q}=Q$

Q-Learning训练的常用技巧

Double Q-Learning Network

实际的游戏中，一般Q-Value都是被高估了。Double DQN就是为了尽量减少这种情况。DDQN的方法是有两个函数 $Q$ 与 $Q^{'}$ ：
$Q(s_t,a_t)=r_t+Q^{'}\left(s_{t+1},\mathop{arg\ max}_aQ(s_t+1,a)\right)$
实际操作中，会有两个Q-Network，一个是选择行动的 $Q$ 网络，另一个是Target Network $Q^{'}$ 。其中 $Q$ 是需要更新参数的网络。