浅谈强化学习中的函数估计问题 - Function Approximation in RL

最新推荐文章于 2023-06-20 13:32:21 发布

止于至玄

最新推荐文章于 2023-06-20 13:32:21 发布

阅读量6.1k

点赞数 2

分类专栏： Reinforcement Learning 文章标签：强化学习

本文链接：https://blog.csdn.net/philthinker/article/details/79508599

版权

本文探讨强化学习中的函数估计问题，包括价值函数估计、梯度下降方法、深度强化学习（DQN）及其变种，如Double DQN、优先回放和Dueling DQN。此外，还涉及非参数化估计方法和直接策略搜索策略，如随机策略搜索（REINFORCE）、TRPO和Actor-Critic算法。

摘要由CSDN通过智能技术生成

下面我们简单讨论下强化学习中的函数估计问题，这里对于强化学习的基本原理、常见算法以及凸优化的数学基础不作讨论。假设你对强化学习（Reinforcement Learning）有最基本的了解。

概述

对于状态空间为连续空间的强化学习问题，我们需要利用函数估计的方法表示各种映射关系。函数估计方法可分为参数估计和非参数估计，其中参数化估计又分为线性参数化估计和非线性参数化估计。本文中我们主要讨论参数化估计。对于基础较薄弱读者，可以参考这篇更基础的文章。

价值函数估计的过程可以看作是一个监督学习的过程，其中数据和标签对为 $(S_{t}, U_{t})$ 。训练的目标函数为：

arg min θ (q (s, a) - q^(s, a, θ)) or arg min θ (v (s) - v^(s, θ))

$\arg\min_{\theta}(q(s,a)-\hat{q}(s,a,\theta))\quad \text{or} \quad \arg\min_{\theta}(v(s)-\hat{v}(s,\theta))$

梯度下降的基本原理可以参考凸优化问题中的无约束规划方法。这里我们要求估计偏差最小，因此采用梯度下降方法：

θ t + 1 = θ t + α d t

$\theta_{t+1}=\theta_{t}+\alpha d_{t}$ 这里

dt d t $d_{t}$ 是偏差下降的方向，此处应为

−∇θ(Ut−v^(St,θt)) − ∇ θ ( U t − v ^ ( S t , θ t ) ) $-\nabla_{\theta}(U_{t}-\hat{v}(S_{t},\theta_{t}))$ 即负梯度方向。代入上式可得：

θ t + 1 = θ t + α [U t - v^(S t, θ t)] \nabla θ v^(S t, θ)

$\theta_{t+1}=\theta_{t}+\alpha[U_{t}-\hat{v}(S_{t},\theta_{t})]\nabla_{\theta}\hat{v}(S_{t},\theta)$ 注意此处

Ut U t $U_{t}$ 与

θ θ $\theta$ 无关，但情况并非总是这样。如果采用蒙特卡罗方法对实验进行采样，即

Ut=Gt U t = G t $U_{t} = G_{t}$ 时，上述公式直接成立；但如果采样

TD(0) T D ( 0 ) $TD(0)$ 方法采样，由于用到了 bootstrapping，即

Ut=Rt+1+γv^(St+1,θ) U t = R t + 1 + γ v ^ ( S t + 1 , θ ) $U_{t}=R_{t+1}+\gamma\hat{v}(S_{t+1},\theta)$ ，

Ut U t $U_{t}$ 中也包含

θ θ $\theta$ 。使用上式忽略了这个影响，因此被称为 部分梯度（semi-gradient）法。

下面讨论线性估计问题，即 $\hat{v}(s,\theta)=\theta^{T}\phi(s)$ 。常用的线性基函数类型如下：

不同的更新公式如下：

蒙特卡罗方法： $\Delta\theta = \alpha[G_{t}-\theta^{T}\phi(s)]\phi(s)$
$TD(0)$ 方法： $\Delta\theta = \alpha[R+\gamma\theta^{T}\phi(s')-\theta^{T}\phi(s)]\phi(s)$
正向视角的 $TD(\lambda)$ 方法： $\Delta\theta = \alpha[G_{t}^{\lambda}-\theta^{T}\phi(s)]\phi(s)$
反向视角的 $TD(\lambda)$ 方法： $δ t E t Δ θ = R t + 1 + γ θ T ϕ (s') - θ T ϕ (s) = γ λ E t - 1 + ϕ (s) = α δ t E t$ $\begin{split} \delta_{t} &= R_{t+1}+\gamma\theta^{T}\phi(s')-\theta^{T}\phi(s) \\ E_{t}&=\gamma\lambda E_{t-1}+\phi(s) \\ \Delta\theta &= \alpha\delta_{t}E_{t} \end{split}$

关于这些更新方法的具体含义可以参考这篇文章。

批处理方法的计算比较复杂，但是计算效率高。批处理方法是指给定经验数据集 $D=\{(s_{1},v_{1}^{\pi}), (s_{2},v_{2}^{\pi}),\dots, (s_{T},v_{T}^{\pi}) \}$ ，找到最好的拟合函数 $\hat{v}(s,\theta)$ 使得

关注

专栏目录