机器学习-46-ML-02-Gradient Descent as LSTM(元学习-用LSTM做Gradient Descen)

最新推荐文章于 2023-10-03 13:50:03 发布

迷雾总会解

最新推荐文章于 2023-10-03 13:50:03 发布

阅读量776

点赞数 2

分类专栏：李宏毅机器学习文章标签：机器学习神经网络

本文链接：https://blog.csdn.net/qq_44766883/article/details/112851217

版权

李宏毅机器学习专栏收录该内容

64 篇文章 264 订阅

订阅专栏

文章目录

- Meta Learning - Gradient Descent as LSTM

Meta Learning - Gradient Descent as LSTM

上次说到meta learning是在训练一个learning algorithm。使用的方法是梯度下降，这次我们研究如何将这个learning algorithm看作是一个LSTM，我们通过训练这个LSTM网络来实现我们的meta learning。

我们观察这个网络，发现很像是一个RNN，我们的training data就像我们RNN中的输入x，之后参数 $\phi$ 就像是之前RNN中的h（x），不断的更新。下面罗列的是将learning algorithm看作是RNN的论文。

👉 OPTIMIZATION AS A MODEL FOR FEW-SHOT LEARNING

👉 Learning to learn by gradient descent by gradient descent

Recurrent Neural Network

前面我们已经介绍过了RNN和LSTM了，链接如下：

👉 机器学习-13-Recurrent Neural Network part1(循环神经网络RNN part1)

👉 机器学习-14-Recurrent Neural Network part2(循环神经网络RNN part2)

这里我们仅仅简单进行一下回顾！

输入x是输入的各个序列的字符（可以理解为是吃进去的字），其二是一个h，h可以是参数，也可以是人为设定的。输出是y和h。我们要注意的是输入的h和输出的h一定要具有相同的格式的。

我们再来回顾一下LSTM和普通的RNN之间有什么不同的地方。RNN是两个输入，两个输出，而LSTM是具有三个输入，三个输出。其中c是变化很小的，而h是具有很大变化的。所以很多人都会说c是可以存储很久远记忆的，而h是会有忘记的。

LSTM有三个gate：

当某个neuron的输出想要被写进memory cell，它就必须要先经过一道叫做input gate的闸门，如果input gate关闭，则任何内容都无法被写入，而关闭与否、什么时候关闭，都是由神经网络自己学习到的
output gate决定了外界是否可以从memory cell中读取值，当output gate关闭的时候，memory里面的内容同样无法被读取
forget gate则决定了什么时候需要把memory cell里存放的内容忘记清空，什么时候依旧保存

我们再来回顾一下LSTM的计算流程，如果从表达式的角度看LSTM，它比较像上图中的样子：

$z$ 是想要被存到cell里的输入值：将 $x^t$ 和 $h^{t-1}$ 接在一起，之后和一个参数矩阵 $W$ 相乘，之后再加上一个tanh(hyperbolic tangent function)激活函数得到z。
$z^i$ 是操控input gate的信号：将 $x^t$ 和 $h^{t-1}$ 接在一起，之后和一个参数矩阵 $W^i$ 相乘
$z^o$ 是操控output gate的信号：将 $x^t$ 和 $h^{t-1}$ 接在一起，之后和一个参数矩阵 $W^o$ 相乘
$z^f$ 是操控forget gate的信号：将 $x^t$ 和 $h^{t-1}$ 接在一起，之后和一个参数矩阵 $W^f$ 相乘

我们得到 $z,z^i,z^f,z^0$ 后：

将 $z$ 和 $z^i$ 做点乘
$z^i\odot z$
上步结果加上 $c^{t-1}$ 和 $z^f$ 做点乘得到新的 $c^t$
$c^t = z^f \odot c^{t-1} + z^i\odot z$
之后再将 $c^t$ 经过一个激活函数tanh，之后再和 $z^o$ 做点乘，得到 $h^t$
$h^t = z^o \odot tanh(c^t)$
再用 $h^t$ 和 $W^{'}$ 做乘法，再加一个激活函数，得到 $y^t$
$y^t = \sigma(W'h^t)$

以上就是LSTM中一个计算单元的全部计算过程。

因为这是一个循环神经网络嘛，所以当然不会只进行一次计算。

我们刚才得到了新的参数 $h^t$ 和 $c^t$ ，之后又有新的输入 $x^{t+1}$ 。之后，按照上面的步骤，我们就不断的进行循环计算，得到最后的值。

Similar to gradient descent based algorithm

上面我们简单介绍了一下LSTM，那么问题来了，我们Meta Learning中的 $\theta$ 在LSTM中又该如何训练呢？又或者说我们如何用LSTM代替Gradient Descent求 $\hat{\theta}$ ？

我们将LSTM的式子和我们最初的梯度下降的式子都罗列出来看看。

上面是梯度下降的式子：
$\theta^t = \theta^{t-1}-\eta\bigtriangledown_{\theta}l$
下面是LSTM的式子：
$\begin{aligned} & c^t = z^f \odot c^{t-1} + z^i\odot z \\ & h^t = z^o \odot tanh(c^t) \\ & y^t = \sigma(W'h^t) \end{aligned}$
我们发现梯度下降左边是 $\theta^t$ ，右边是 $\theta^{t-1}$ ,之后LSTM的第一个式子左边是 $c^t$ ，右边是 $c^{t-1}$ 。于是我们就想，可不可以把 $c$ 当成 $\theta$ 来看呢！其实就是将 $c$ 当成是神经网络的参数来看待。

看上图中，我们将LSTM的架构进行了简化，只保留了更新memory cell中 $c$ 的部分；然后将 $c$ 换成了 $\theta$ ，因此每次更新 $\theta$ 都会经历这一个过程(式子)：
$\theta^t = z^f\odot\theta^{t-1} + z^i\odot z$
当然这个式子看起来和Gradient Descent的式子还有一些差异，我们进一步分析：

这里对式子
$\theta^t = z^f\odot\theta^{t-1} + z^i\odot z$
进行进一步的替换，将 $z$ 替换成 $-\bigtriangledown_{\theta}l$ （梯度的负数）：
$\theta^t = z^f\odot\theta^{t-1} + z^i\odot -\bigtriangledown_{\theta}l$
然后，将 $z^f$ 替换成全是 $1$ 的常量矩阵，将 $z^i$ 替换成全是 $\eta$ 的常量矩阵。

这样整个LSTM就换成是一个梯度下降的式子，每个时刻对 $\theta$ 的更新就可以看做是进行了一次Gradient Descent！也可以理解为梯度下降就是LSTM的特殊形式。

上面看似已经很完美了！但是我们再思考一个问题，上面式子的 $z^f$ 和 $z^i$ 都是直接给出的，但是我们现在想能否将其动态的学习出来呢！？

这将是我们所想要解决的问题。我们前面是只假设input只有 $-\bigtriangledown_{\theta}l$ ，但其实我们可以拿别的信息一起作为input！

比如说：我们可以将在 $\theta^{t-1}$ 参数下算出来的loss当做输入来control $z^i$ 和 $z^f$ 的值

这样子，我们学出来的 $z^f$ 在计算 $\theta^t$ 的时候，就像是在做一个回归的运算，也就是做一个weight decay，将前面算出来的 $\theta^{t-1}$ 乘以 $z^f$ 来进行适当的缩小；而在计算 $z^i$ 的时候，更像是在动态的决定一个LR过程。

我们来看一下梯度下降版的LSTM是什么情况的。计算过程如上图所示。

我们的输入是一个 $\theta^0$ 。同时我们提取出一个batch的数据，之后我们将其通过参数 $\theta$ ，得到梯度的负数，我们将这两个作为“LSTM”的输入，之后进行训练，假设我们循环三次LSTM，得到了最终的 $\hat{\theta}$ ( $\theta^3$ )。
用测试数据在参数 $\hat{\theta}$ 下得到预测值，我们将其和真实值做比较，就得到模型的loss。
这个loss就是我们要Minimize的目标！因此我们要做的就是用得到的loss通过Gradient Descent，不断的更新LSTM的参数去Minimize最终的输出loss

其实我们这个Model和LSTM还有一个区别。在LSTM中， $c^{t-1}$ 和 $x^t$ 是独立的，也就是说在memory cell中存储的值不会影响当前时刻看到的输入 $x^t$ 。而在这个Model中，输入 $-\bigtriangledown_{\theta}l$ 是要对 $\theta$ 求gradient，也就是说 $\theta$ 的值会影响接下来的输入 $-\bigtriangledown_{\theta}l$ ，两者之间并不是独立的！