[机器学习]强化学习

最新推荐文章于 2024-02-14 11:05:46 发布

CristianoJason

最新推荐文章于 2024-02-14 11:05:46 发布

阅读量1.7k

点赞数

分类专栏：模式识别与机器学习文章标签：机器学习强化学习

本文链接：https://blog.csdn.net/cristianojason/article/details/79058041

版权

模式识别与机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

本文档记录了《机器学习》第 16 章强化学习相关内容

任务与奖赏

形式化表示

环境 $E = \langle X, A, P, R \rangle$
状态 $x \in X$
动作 $a \in A$
状态转移概率 $P:X\times A\times X\mapsto \mathbb{R}$
奖赏 $R:X\times A\times X\mapsto \mathbb{R}$

一些应用中奖赏函数可能仅与状态转移有关： $R:X\times X\mapsto \mathbb{R}$

“机器”与“环境”的界限

在环境中状态的转移、奖赏的返回是不受机器控制的，机器只能通过选择要执行的动作来影响环境，也只能通过观察转移后的状态和返回的奖赏来感知环境。

策略（Policy）

确定性策略： $\pi:X\mapsto A$
随机性策略： $\pi:X\times A\mapsto \mathbb{R}$ ，有 $\sum_{a}\pi(x,a)=1$

奖赏

$T$ 步累计奖赏： $\mathbb{E}[\frac{1}{T}\sum_{t=1}^{T}r_t]$
$\gamma$ 折扣累计奖赏： $\mathbb{E}[\sum_{t=0}^{+\infty}\gamma^t r_{t+1}]$

$K$ -摇臂赌博机

离散状态空间、离散动作空间

最大化单步奖赏

需要知道每个动作带来的奖赏
执行最大奖赏的动作

获知每个摇臂的期望奖赏

仅探索

将所有尝试机会平均分配给每个摇臂，以每个摇臂各自的平均吐币概率为奖赏期望的近似估计。

可以很好地估计每个摇臂的奖赏，但由于探索的存在常常会失去选择最优摇臂的机会。
仅利用

选取目前最优（平均奖赏最大）的摇臂。很难对摇臂的期望奖赏有一个较好的估计，从而选不到最优摇臂。

$\epsilon$ -贪心

基于 $\epsilon$ 的概率对探索和利用进行折中

第 $k$ 个摇臂第 $n$ 次尝试之后平均奖赏：

Q 0 (k) = 0

$Q_0(k)=0$

Q n (k) = 1 n ((n - 1) \times Q n - 1 (k) + v n)

$Q_n(k)=\frac{1}{n}((n-1)\times Q_{n-1}(k)+v_n)$

Q n (k) = Q n - 1 (k) + 1 n (v n - Q n - 1 (k))

$Q_n(k)=Q_{n-1}(k)+\frac{1}{n}(v_n-Q_{n-1}(k))$

如何确定 $\epsilon$

摇臂奖赏不确定性较大，则选用较大的 $\epsilon$
摇臂奖赏不确定性较小，则选用较小的 $\epsilon$

Softmax

基于当前已知的摇臂平均奖赏对探索和利用进行折中

摇臂概率的分配

基于 Boltzmann 分布

P (k) = e Q ( k ) τ Σ K i = 1 Q ( i ) τ

$P(k)=\frac{e^{\frac{Q(k)}{\tau}}}{\Sigma_{i=1}^{K}\frac{Q(i)}{\tau}}$

有模型学习

假定任务对应的马尔科夫决策过程四元组 $E=\langle X, A, P, R\rangle$ 均已知，即机器已对环境进行了建模，能在机器内部模拟出与环境相同或近似的状况，从状态 $x$ 执行动作 $a$ 转移到状态 $x'$ 的状态转移概率 $P_{x\rightarrow x'}^a$ 以及奖赏 $R_{x\rightarrow x'}^a$ 均已知。

策略评估

状态值函数 $V(\cdot)$ ：指定状态上的累积奖赏
- $T$ 步累积奖赏
  
  $V π T (x) = ? π [1 T \sum t = 1 T r t | x 0 = x]$ $V_T^{\pi}(x)=\mathbb{E}_\pi[\frac{1}{T}\sum_{t=1}^{T}r_t|x_0=x]$
  
  $V π T (x) = \sum a \in A π (x, a) \sum x' \in X P a x \to x' (1 T R a x \to x' + T - 1 T V π T - 1 (x'))$ $V_T^{\pi}(x)=\sum_{a\in A}\pi(x,a)\sum_{x'\in X}P_{x\rightarrow x'}^a(\frac{1}{T}R_{x\rightarrow x'}^a+\frac{T-1}{T}V_{T-1}^\pi(x'))$
- $\gamma$ 折扣积累奖赏
  
  $V π γ (x) = ? π [\sum t = 0 + \infty γ t r t + 1 | x 0 = x]$ $V_{\gamma}^{\pi}(x)=\mathbb{E}_\pi[\sum_{t=0}^{+\infty}\gamma^t r_{t+1}|x_0=x]$
  
  $V π γ (x) = \sum a \in A π (x, a) \sum x' \in X P a x \to x' (R a x \to x' + γ V π T - 1 (x'))$ $V_{\gamma}^{\pi}(x)=\sum_{a\in A}\pi(x,a)\sum_{x'\in X}P_{x\rightarrow x'}^a(R_{x\rightarrow x'}^a+\gamma V_{T-1}^\pi(x'))$
状态-动作值函数 $Q(\cdot)$ ：指定状态-动作上的累积奖赏
- $T$ 步累积奖赏
  
  $Q π T (x, a) = \sum x' \in X P a x \to x' (1 T R a x \to x' + T - 1 T V π T - 1 (x'))$ $Q_T^{\pi}(x,a)=\sum_{x'\in X}P_{x\rightarrow x'}^a(\frac{1}{T}R_{x\rightarrow x'}^a+\frac{T-1}{T}V_{T-1}^\pi(x'))$
- $\gamma$ 折扣积累奖赏
  
  $Q π γ (x) = \sum x' \in X P a x \to x' (R a x \to x' + γ V π T - 1 (x'))$ $Q_{\gamma}^{\pi}(x)=\sum_{x'\in X}P_{x\rightarrow x'}^a(R_{x\rightarrow x'}^a+\gamma V_{T-1}^\pi(x'))$

策略改进

一个强化学习可能会有多个最优策略，最优策略对应的的值函数 $V^*$ 称为最优值函数：

\forall x \in X : V * (x) = V π * (x)

$\forall x\in X:V^*(x)=V^{\pi^*}(x)$

其中， $\pi^*=\text{argmax}_\pi\sum_{x\in X}V^\pi(x)$ 。

最优值函数

$T$ 步累积奖赏

$V * T (x) = max a \in A \sum x' \in X P a x \to x' (1 T R a x \to x' + T - 1 T V * T - 1 (x'))$ $V_T^{*}(x)=\text{max}_{a\in A}\sum_{x'\in X}P_{x\rightarrow x'}^a(\frac{1}{T}R_{x\rightarrow x'}^a+\frac{T-1}{T}V_{T-1}^*(x'))$
$\gamma$ 折扣积累奖赏

$V * γ (x) = max a \in A \sum x' \in X P a x \to x' (1 T R a x \to x' + T - 1 T V * γ (x'))$ $V_{\gamma}^*(x)=\text{max}_{a\in A}\sum_{x'\in X}P_{x\rightarrow x'}^a(\frac{1}{T}R_{x\rightarrow x'}^a+\frac{T-1}{T}V_{\gamma}^*(x'))$

最优状态-动作值函数

最优值函数 $V^*(x)=\text{max}_{a\in A}Q^{\pi^*}(x,a)$

$T$ 步累积奖赏

$Q * T (x, a) = \sum x' \in X P a x \to x' (1 T R a x \to x' + T - 1 T max a' \in A Q * (x, a'))$ $Q_T^{*}(x,a)=\sum_{x'\in X}P_{x\rightarrow x'}^a(\frac{1}{T}R_{x\rightarrow x'}^a+\frac{T-1}{T}\text{max}_{a'\in A}Q^{*}(x,a'))$
$\gamma$ 折扣积累奖赏

$Q * γ (x) = \sum x' \in X P a x \to x' (R a x \to x' + γ max a' \in A Q * (x, a')) $ $Q_{\gamma}^{*}(x)=\sum_{x'\in X}P_{x\rightarrow x'}^a(R_{x\rightarrow x'}^a+\gamma \text{max}_{a'\in A}Q^{*}(x,a'))$

策略迭代与值迭代

策略迭代（采用 sum）

从一个初始策略出发，先进行策略评估，再进行策略改进，不断迭代直到策略收敛。

值迭代（采用 max）

策略迭代每次改进完都要进行评估，较为耗时，可将策略改进视为值函数的改进。

免模型学习

相比有模型学习，实际任务中环境的转移概率、奖赏函数、状态数很难得知，无法依赖环境建模。

蒙特卡洛（Monte-Carlo）强化学习

策略评估替代方法

多次采样，然后取平均累积奖赏作为期望累积奖赏的近似
策略估计由状态值函数 $V$ 改为状态-动作值函数 $Q$ 的原因：策略是通过 $Q$ 获得的，当模型未知时很难通过 $V$ 得到 $Q$ 。

同策略

评估与改进的策略相同，采用 $\epsilon$ -贪心代替原始确定性策略。

随机采样 $s$ 条轨迹，每条轨迹长为 $T$ ，每个时刻为一个三元组 $(x_t,a_t,r_{t+1})$ ，最后一个时刻只有状态
对每个时刻 $t\in[0,T-1]$ 计算当前累积奖赏 $R=\frac{1}{T-t}\sum_{i=t+1}^T r_i$ ，利用 $R$ 更新平均奖赏 $Q(x_t,a_t)$
更新策略 π(x,a) ：
- 以 $1-\epsilon$ 的概率取当前平均奖赏最大的动作 $\pi(x,a)=\arg \max_{a'} Q(x,a')$
- 以 $\epsilon$ 的概率随机选取动作

异策略

引入 $\epsilon$ -贪心是为了便于策略评估，但最终希望改进的是原始确定性策略。

随机采样 $s$ 条轨迹，每条轨迹长为 $T$ ，每个时刻为一个三元组 $(x_t,a_t,r_{t+1})$ ，最后一个时刻只有状态
计算选取每个动作 ai 的概率 pi ：
- $a_i=\pi(x_i): 1-\epsilon+\epsilon/|A|$
- $a_i\neq\pi(x_i):\epsilon/|A|$
对每个时刻 $t\in[0,T-1]$ 计算当前累积奖赏 $R=\frac{1}{T-t}\sum_{i=t+1}^T r_i\prod_{t=t+1}^{T-1}\frac{\mathbb{I}(a_i=\pi(x_i))}{p_i}$ ，利用 $R$ 更新平均奖赏 $Q(x_t,a_t)$
更新策略 $\pi(x,a)$ ：取当前平均奖赏最大的动作 $\pi(x,a)=\arg \max_{a'} Q(x,a')$

时序差分（Temporal Difference）学习

蒙特卡洛强化学习算法效率较低，并且没有充分利用强化学习任务的 MDP 结构，TD 学习则结合了动态规划与蒙特卡洛方法的思想，将蒙特卡洛批处理式更新状态-动作值函数更改为增量式进行。

对值函数的估计

设基于 $t$ 个采样估计出的值函数 $Q_t^\pi(x,a)=\frac{1}{t}\sum_{i=1}^t r_i$ ，则得到第 $t+1$ 个采样 $r_{t+1}$ 时，有：

Q π t + 1 (x, a) = Q π t (x, a) + 1 t + 1 (r t + 1 - Q π t (x, a))

$Q_{t+1}^\pi(x,a)=Q_t^\pi(x,a)+\frac{1}{t+1}(r_{t+1}-Q_t^\pi(x,a))$

其中 $r_{t+1}-Q_t^\pi(x,a)$ 称为 MC 误差。

原始状态-动作值函数

Q π γ (x) = \sum x' \in X P a x \to x' (R a x \to x' + γ V π (x'))

$Q_{\gamma}^{\pi}(x)=\sum_{x'\in X}P_{x\rightarrow x'}^a(R_{x\rightarrow x'}^a+\gamma V^\pi(x'))$

Q π γ (x) = \sum x' \in X P a x \to x' (R a x \to x' + γ \sum a' \in A π (x', a') Q π (x', a'))

$Q_{\gamma}^{\pi}(x)=\sum_{x'\in X}P_{x\rightarrow x'}^a(R_{x\rightarrow x'}^a+\gamma \sum_{a'\in A}\pi(x',a')Q^\pi(x',a'))$

增量求和

Q π t + 1 (x, a) = Q π t (x, a) + α (R a x \to x' + γ Q π t (x', a') - Q π t (x, a))

$Q_{t+1}^\pi(x,a)=Q_t^\pi(x,a)+\alpha(R_{x\rightarrow x'}^a+\gamma Q_t^\pi(x',a')-Q_t^\pi(x,a))$

$x'$ 表示前一次在状态 $x$ 执行动作 $a$ 后转移到的状态
$a'$ 是策略 $\pi$ 在状态 $x'$ 上选择的动作
$Q_t^\pi(x,a)$ 是老的估计的回报
$Q_t^\pi(x',a')$ 是新的回报

同策略 Sarsa

$x=x_0, a=\pi(x)$
对每个时刻在环境 $E$ 中执行动作 $a$ ，得到奖赏 $r$ 和转移状态 $x'$
根据当前转移状态 $x'$ 和 $\epsilon$ -贪心策略获得下一动作 $a'$ ，即 $a'=\pi^\epsilon(x')$
更新状态-动作值函数： $Q(x,a)=Q(x,a)+\alpha(r+\gamma Q(x',a')-Q(x,a))$
更新策略： $\pi(x)=\arg\max_{a''}Q(x,a'')$
$x=x',a=a'$ ，循环 2-5

异策略 Q-Learning

$x=x_0, a=\pi(x)$
对每个时刻在环境 $E$ 中执行动作 $a$ ，得到奖赏 $r$ 和转移状态 $x'$
根据当前转移状态 $x'$ 和原始策略获得下一动作 $a'$ ，即 $a'=\pi(x')$
更新状态-动作值函数： $Q(x,a)=Q(x,a)+\alpha(r+\gamma Q(x',a')-Q(x,a))$
更新策略： $\pi(x)=\arg\max_{a''}Q(x,a'')$
$x=x',a=a'$ ，循环 2-5

值函数近似

值函数能表示为一个数组，最简单情况下能表达为状态的线性函数：

V θ (x) = θ ⊤ x

$V_{\theta}(x)=\theta^\top x$

以异策略为例，可以得到如下强化学习算法：

$x=x_0, a=\pi(x)=\arg\max_{a''}\theta^\top(x;a'')$
对每个时刻在环境 $E$ 中执行动作 $a$ ，得到奖赏 $r$ 和转移状态 $x'$
根据当前转移状态 $x'$ 和 $\epsilon$ -贪心策略获得下一动作 $a'$ ，即 $a'=\pi^\epsilon(x')$
更新值函数： $\theta=\theta+\alpha(r+\gamma \theta^\top(x';a')-\theta^\top(x;a))(x;a)$
更新策略： $\pi(x)=\arg\max_{a''}\theta^\top(x;a'')$
$x=x',a=a'$ ，循环 2-5

模仿学习

借鉴专家的决策过程范例，如迭代式强化学习算法：

从范例轨迹中计算得到状态的加权和均值向量 $\bar{x}^*$
初始化随机策略 $\pi$
第 $t$ 次从策略中采样，通过轨迹计算状态的加权和均值向量 $\bar{x}_t^*$
计算最小化向量： $w^*=\arg\max_w\min_{i=1}^t w^\top (\bar{x}^*-\bar{x}_t^*)$ ，保证 $\|w\|\leq 1$
根据环境 $\langle X,A,R(x)=w^{*\top}x\rangle$ 更新策略 $\pi$