李宏毅机器学习（17）

最新推荐文章于 2024-09-22 23:33:44 发布

Baigker

最新推荐文章于 2024-09-22 23:33:44 发布

阅读量180

点赞数

分类专栏：李宏毅机器学习课程笔记文章标签：机器学习人工智能深度学习

本文链接：https://blog.csdn.net/Baigker/article/details/119645499

版权

李宏毅机器学习课程笔记专栏收录该内容

29 篇文章 0 订阅

订阅专栏

Seq2seq

Generation

我们希望NN能生成structured object，比如：一句话。这个问题我们已经知道要用RNN来解决了。
在这里插入图片描述
类似的，我们可以讲一副图片拆成一个个像素，用RNN生成。

但更好的方法是，我们应该让就近的像素对生成的像素进行影响，而非按行来。可以进行 filter + 3维记忆空间的方法。

Conditional Generation

但更多的时候，我们会给机器一个条件作为输入，从而获得相应的输出。
比如：输入一副图片，机器输出一句话来描述这幅图像。
那我们就可以用一个CNN把图像转化成一个 $v e c t o r$ ，然后再每个时刻都输入进RNN中，以防RNN忘记。
在这里插入图片描述
文字翻译也可以用类似的方法，其做法也并不复杂，大体可以分为两步：

Encoder：把输入放进一个RNN中，最后输入一个 $v e c t o r$
Decoder：把 $v e c t o r$ 每个时刻都输入另一个RNN中。

在这里插入图片描述
此外，在聊天机器人中，我们需要让之前的信息也输入到模型中，防止说重复的内容。

Attention

Attention是一种动态的Generation，即：每个时刻输入进Decoder的 $v e c t o r$ 不一样。
这样做有两个优势：

有时输入太大，不能只用一个 $v e c t o r$ 表示
输出的时候可以只考虑一个部分，简化了运算

在这里插入图片描述
做法也不复杂：
$z^0$ 表示0时刻的参数。 $m a t c h$ 是自己设计的函数，可以train。这样就得到了每个 $h$ 对应的 $α$ 。

之后，经过一个 softmax ，然后求和得到 $c$ ，此时 $c$ 就是Decoder input 。此外，可以得到下一时刻的 $z^1$ 。
在这里插入图片描述

Image Caption Generation

将每个图片划分区域，把每个区域的向量与当前时刻的 $z$ 进行运算得到 $w e i g h t$ ，之后，进行 weighted sum，再交给 Decoder ，以此得到输出。
在这里插入图片描述

Memory Network

现在有这样的问题：我们有一篇文章Document，一个问题Query，我们需要输出一个答案Answer。
基本做法如下：
用 $x^1,x^2,x^3,...,x^N$ 表示文章的每个句子。向量q表示问题。两者经过Match函数得到对应的 $α$ 。而得到的新向量，可以与 q 进行运算，表示机器在反复“思考”。这个过程叫做 Hopping 。
在这里插入图片描述
更复杂的版本。

Neural Turing Machine

Neural Turing Machine 不仅可以读取memory，还可以修改memory。
在这里插入图片描述
基本流程如下：
我们现在有4个memory： $m_0^1,m_0^2,m_0^3,m_0^4$ ，有对应的 $w e i g h t$ ： $\widehat{α}_0^1,\widehat{α}_0^2,\widehat{α}_0^3,\widehat{α}_0^4$ 。由此生成对应的向量 $r^0$ 。函数 $f$ 输出三个值： $k^1,e^1,a^1$ 。
通过计算，得到新的 $\widehat{α}_1^1,\widehat{α}_1^2,\widehat{α}_1^3,\widehat{α}_1^4$ （实际计算很复杂）。
然后再用 $e^1,a^1$ 修改memory得到 $m_1^1,m_1^2,m_1^3,m_1^4$ 。
这样就完成了一次更新。
在这里插入图片描述