（《机器学习》完整版系列）第16章强化学习——16.10 值函数近似

人工干智能

已于 2023-03-31 11:21:12 修改

阅读量207

点赞数 1

分类专栏：周志华【西瓜书】辅导《机器学习》文章标签：机器学习算法人工智能

于 2023-03-28 08:36:13 首次发布

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129808235

版权

周志华【西瓜书】辅导同时被 2 个专栏收录

143 篇文章 29 订阅

订阅专栏

《机器学习》

143 篇文章 5 订阅

订阅专栏

提示：
函数近似：以某种已知曲线（含参数）逼近未知函数。
现在：未知函数为值函数，已知函数取线性函数

值函数近似

前面讨论的“状态”是有限的、离散的，即为有限状态机（如【西瓜书图16.2】），值函数 $Q^{\pi}(x,a)$ 即为二维数组 $\{Q^{\pi}(x_i,a_j)\}_{i,j}$ 。注：当在有限状态空间时，通常“状态”变量不参与运算，如，你可以设想 $P^a_{x \to x'},R^a_{x \to x'},\pi (x',a)$ 都是以表格形式体现，确定它们的值不是运算出来的，而是查表查出来的，然后再用它们运算出 $Q^{\pi}(x,a)$ 。而现在状态向量 $\boldsymbol{x}$ 连续并希望通过它直接运算出 $Q^{\pi}(x,a)$ ，让 $P^a_{x \to x'},R^a_{x \to x'},\pi (x',a)$ 退居幕后。
现在将其扩展到无限、连续的状态空间中。设状态为实数 $x$ ，则值函数 $Q^{\pi}(x,a)$ 为曲线，在 $x$ 点及其附近，我们以某种已知曲线（含参数）逼近它，扩展到超平面上，以向量表示状态，即状态向量 $\boldsymbol{x}$ 的值函数表示为
$\begin{align} Q^{\pi}(\boldsymbol{x},a)\approx Q_{\boldsymbol{\theta} }(\boldsymbol{x},a) \tag{16.87} \end{align}$
进一步地，取 $Q_{\boldsymbol{\theta} }(\boldsymbol{x},a)$ 为线性函数（ $\boldsymbol{\theta}$ 为线性函数的参数，即常用的 $\boldsymbol{W}$ ），这里进一步地，让“动作” $a$ 也参与运算，实际上是指“动作的量化”，如，“浇水多少”，如果需要量化多个动作，则将这里的 $a$ 改为向量 $\boldsymbol{a}$ 即可。
故
$\begin{align} Q_{\boldsymbol{\theta} }(\boldsymbol{x},a) & ={\boldsymbol{\theta} }^{\mathrm{T}}(\boldsymbol{x};a) \tag{16.88} \end{align}$

这时可用“最小二乘法”【西瓜书3.2节：线性回归】，由均值与期望的关系，可将【西瓜书式(3.4)】关于参数的表达改为【西瓜书式(16.33)】的表达，将直接求最小值点（【西瓜书式(3.5)(3.6)】）改为用梯度下降法逼近最小值点。

求负导数（梯度下降）即得【西瓜书式(16.34)】，下面再对其简化和近似化，以期得到递推式。

（1）简化：当样本数简化到一个时，【西瓜书式(16.34)】即为
$\begin{align} -\nabla E_{\boldsymbol{\theta} }=2(Q^{\pi}(\boldsymbol{x},a)-Q_{\boldsymbol{\theta} }(\boldsymbol{x},a))(\boldsymbol{x};a) \tag{16.89} \end{align}$
而梯度下降法【西瓜书式(B.17)】此时为
$\begin{align} \boldsymbol{\theta} _{t+1}-\boldsymbol{\theta} _{t}=-\gamma ' \nabla E_{\boldsymbol{\theta}_t } \tag{16.90} \end{align}$

将式(16.89)代入式(16.90)，并记 $2\gamma '$ 为 $\alpha$ ，则单个样本的更新规则为
$\begin{align} {\boldsymbol{\theta} }_{t+1}={\boldsymbol{\theta} }_{t}+\alpha (Q^{\pi}(\boldsymbol{x},a)-Q_{\boldsymbol{\theta} }(\boldsymbol{x},a))(\boldsymbol{x};a) \tag{16.91} \end{align}$

（2）针对式(16.91)中的 $Q^{\pi}(\boldsymbol{x},a)$ ，我们将其展开（有点像使用泰勒展开技巧），设 $\pi$ 为确定性策略， $a$ 为 $\pi$ 在 $\boldsymbol{x}$ 处选取的动作，
由【西瓜书式(16.6)】第二式展开：
$\begin{align} Q^{\pi }(\boldsymbol{x},a) & =\mathbb{E} _{\pi }\left[\sum_{t=0}^{+\infty }\gamma ^tr_{t+1}|\boldsymbol{x}_0=\boldsymbol{x},a_0=a\right]\notag \\ & =\mathbb{E} _{\boldsymbol{x}\to \boldsymbol{x}'}\gamma ^0r_{0+1}+\mathbb{E} _{\pi } \left[\sum_{t=1}^{+\infty }\gamma ^tr_{t+1}|\boldsymbol{x}_1=\boldsymbol{x}',a_1=a'\right]\notag \\ & = r+Q^{\pi }(\boldsymbol{x}',a')\quad \text{（简记）}\notag \\ & \approx r+Q_{\boldsymbol{\theta} }(\boldsymbol{x}',a')\quad \text{（由式(16.87)）} \tag{16.92} \end{align}$

将式(16.92)代入式(16.91)中，得递推式
$\begin{align} {\boldsymbol{\theta} }_{t+1}={\boldsymbol{\theta} }_{t}+\alpha (r+\gamma Q_{\boldsymbol{\theta} }(\boldsymbol{x}',a')-Q_{\boldsymbol{\theta} }(\boldsymbol{x},a))(\boldsymbol{x};a) \tag{16.93} \end{align}$

（3）取线性逼近：式(16.88)代入式(16.93)，并将当前的 ${\boldsymbol{\theta} }_{t}$ 作为 ${\boldsymbol{\theta} }$ ，则得递推式
$\begin{align} {\boldsymbol{\theta} }_{t+1}={\boldsymbol{\theta} }_{t}+\alpha (r+\gamma {{\boldsymbol{\theta}_t }^{\mathrm{T}}(\boldsymbol{x}';a')}-{\boldsymbol{\theta} }_t^{\mathrm{T}}(\boldsymbol{x};a))(\boldsymbol{x};a) \tag{16.94} \end{align}$

式(16.94)即为【西瓜书式(16.36)】。

比较式(16.94)与式(16.86)可知，对【西瓜书图16.12】的Sarsa算法中的第6句用式(16.94)替代即得到线性值函数近似Sarsa算法【西瓜书图16.14】，其中，蒙特卡罗试验采用 ${\epsilon }$ -贪心策略 ${\pi}^{\epsilon }$ 。

另外，阅读算法类书藉时，关于“ $=$ ”号有两点要注意：

i.有的等式是递归式，而不是方程式，如【西瓜书式(16.35)】，如果视为数学中的方程式，两边 $\boldsymbol{\theta}$ 抵消，则后一项为0，显然是错误的。这里的“ $=$ ”实际上是计算机中的赋值语句（程序中常是这样写），【西瓜书式(16.35)】的数学表达应为式(16.93)。

ii.求“最优”往往是从“次优”去迭代逼近，因此，在推导中常通过“近似”使式子得到简化和可递推化，如上述式(16.92)的推导过程多次使用“近似”，从数学的严格意义上讲，应该用“ $\approx$ ”，但由于我们是寻找最终用于程序中的式子，故直接用“ $=$ ”号，而将这种“近似”视为算法中的技巧。

以上两点在阅读时可结合上下文来理解。

本文为原创，您可以：