Lecture 4 Sequence as input

最新推荐文章于 2024-10-02 15:05:33 发布

Yi_cAt

最新推荐文章于 2024-10-02 15:05:33 发布

阅读量793

点赞数

分类专栏： 2022 Spring 李宏毅ML 文章标签：自然语言处理人工智能深度学习

本文链接：https://blog.csdn.net/Yi_cAt/article/details/126727317

版权

2022 Spring 李宏毅ML 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

Lecture 4: Sequence as input

文章目录

Self-attention

Self-attention

Sophisticated Input

Input is a vector:

Input is a set of vectors:

Vector set as input

文字处理

假设网络的输入是一个句子，我们需要将句子中的每一个词都用一个向量来表示。那么，我们的模型输入将会是一个 Vector Set，并且每一次输入的 Vector Set 的大小会不同。将用向量来表示词汇的方法如下所示：

One-hot Encoding 建立一个很长的向量，每一个维度对应一个词汇。缺点也很明显，这种方法忽略掉了词语之间的关系（词语间语义的关系）；比如说，很难从 One-hot Encoding 中看出 cat 和 dog 都是动物这层关系。

Word Embedding 也使用向量来表示词语，但这些向量包含了语义的关系。如上图所示，可以看到“动词”、“动物”、“植物”类的词汇往往都分别聚集成一块。

音频处理

一个窗口（Window）内的音频信号可以描述成一个向量，这个向量也叫做帧（Frame），长度通常是 $25 m s$ ；为了描述整段的音频信号，窗口会进行滑动，向后滑动 $10 m s$ ；那么 $1 s$ 内就有 $100$ 个向量。

Graph as input

What is the output?

Each vector has a label

输入和输出的长度保持一致，输入 $n$ 个 vector 就输出 $n$ 个 scalar 或 class。

Example

常见的应用：词性标注；语音辨识；社交网络中每个结点的特性。

The whole sequence has a label

无论输入有多长，都只会有一个输出。

Example

常见应用：情感分析；识别演讲人；有机物的亲水性如何。

Model decides the number of labels itself （Seq2Seq）

我们并不知道将会有多少输出，需要模型自己决定。

Sequence Labeling

本节主要关注 Each vector has a label 这一情况，又叫做 Sequence Labeling。

如果我们考虑用全连接网络来解决词性标注的问题，那将会有一个明显的问题 —— 我们期待 $\color{blue} saw$ 通过 FC 后输出的是动词， $\color{orange}saw$ 通过 FC 后输出的是名词，而对于 FC 来说，输入的 $\color{black}saw$ 没有任何区别，因此它们会得到同样的输出。

为了解决上述问题，我们尝试让 FC 考虑上下文的信息，我们将前后几个相邻向量（一个 window）都输入 FC 中。那如果问题需要考虑一整个 Sequence 该怎么办呢？—— 引入 Self - attention

Self-attention

Self-attention 的处理流程如上图所示，将 Sequence 中的所有 Vector 输入 Self-attention，输入 $n$ 个 Vector 就输出 $n$ 个 Vector，且这 $n$ 个 Vector 都考虑了整个 Sequence 的信息。将这些 Vector 再输入到 FC 中，最终再输出 scalar 或者 class。

Input and output

Self-attention 的输入可以来自原始的 input vector 或者是 hidden layer 的输出。每一个输出向量 $\bf b$ 都考虑了输入向量 $\bf a$ 。接下来将详细解释输出向量 ${\bf b}^1$ 的产生过程。

计算 $\alpha$ :

首先，根据 $a^1$ 找出这个 sequence 中所有与 $a^1$ 相关的向量，sequence 中其余向量与 $a^1$ 的关联程度用 $\alpha$ 表示。那么， $\alpha$ 如何计算呢？引入计算 attention 的模组。

Dot-product

两个输入向量分别乘上矩阵 $W^q$ 和 $W^k$ 得到向量 $\bf q$ 和 $\bf k$ ， $\alpha=\bf q \cdot \bf k$ 。Transformer 中使用的是这种方法。

Additive

两个输入向量分别乘上矩阵 $W^q$ 和 $W^k$ 得到向量 $\bf q$ 和 $\bf k$ ，将这两个向量连接起来输入到激活函数中，再经过一个 Transform 得到 $\alpha$ 。

如上图所示， ${\bf a}^1$ 乘上 ${\rm W}^q$ 作为 query ${\bf q}^1$ ， ${\bf a}^1,\ {\bf a}^2,\ {\bf a}^3$ 都乘上 ${\rm W}^k$ 作为 key ${\bf k}^2,\ {\bf k}^3,\ {\bf k}^4$ 。 ${\bf q}^1$ 分别和 ${\bf k}^2,\ {\bf k}^3,\ {\bf k}^4$ 做点积得到 $\alpha_{1,2},\ \alpha_{1,3},\ \alpha_{1,4}$ ，这些 $\alpha$ 也叫做 attention score。

计算 ${\bf b}^1$ ：

在实际操作中，我们也需要计算 $\alpha_{1,1}$ ，也就是 ${\bf q}^1$ 和 ${\bf k}^1$ 都由 ${\bf a}^1$ 分别乘上矩阵 ${\rm W}^q,\ {\rm W}^k$ 得到（需要计算自己和自己的相关性），其余的 $\alpha$ 计算方式同上。最后通过 $so f t ma x$ 得到 $\alpha_{1,i}'$ ，即 $\alpha_{1,i}'=\exp(\alpha_{1,i})/\sum_j\exp(\alpha_{1,j})$ 。

得到 $\alpha_{1,i}'$ 后，我们需要根据 $\alpha_{1,i}'$ 来抽取出 sequence 中重要的信息。如下图所示，对于每个 ${\bf a}$ 都乘上矩阵 ${\rm W}^v$ 得到向量 ${\bf v}$ ；接下来，用 attention score 乘上每个 ${\bf v}$ 再求和就得到了 ${\bf b}^1$ ，即 ${\bf b}^1=\sum_{i}\alpha_{1,i}'{\bf v}^i$ 。哪一个 $\alpha_{1,i}'$ 大，那么 $\bf b$ 就会越接近该 $\bf v$ 向量。

计算 ${\bf b}^2$ 的过程也类似， ${\bf b}^2=\sum_{i}\alpha_{2,i}'{\bf v}^i$ 。总之，要计算 ${\bf b}^i$ ，首先，由 ${\bf a}^i$ 和矩阵 ${\rm W}^q,\ {\rm W}^k,\ {\rm W}^v$ 计算 ${\bf q}^i,\ {\bf k}^i, {\bf v}^i$ ；再由 ${\bf q}^i,\ {\bf k}^j$ 计算出 $\alpha_{i,j}$ ，再通过 $so f t ma x$ 得到 $\alpha'_{i,j}$ （attention score）；最后得到 ${\bf b}^i=\sum_j\alpha'_{i,j} {\bf v}_j$ 。

Self-attention in the view of matrix multiplication

Step 1: 计算 ${\bf q}^i,\ {\bf k}^i, {\bf v}^i$

我们已经知道了需要 ${\bf a}^i$ 和矩阵 ${\rm W}^q,\ {\rm W}^k,\ {\rm W}^v$ 计算 ${\bf q}^i,\ {\bf k}^i, {\bf v}^i$ 。接下来通过矩阵乘法的角度来看self-attention。

如上图所示，我们可以将 ${\bf a}^i$ 拼接起来记作 ${\bf I}$ （input），因此与矩阵 ${\rm W}^q,\ {\rm W}^k,\ {\rm W}^v$ 作矩阵乘法得到 ${\bf Q},\ {\bf K},\ {\bf V}$ （分别是 ${\bf q}^i,\ {\bf k}^i, {\bf v}^i$ 拼接的结果）。

Step 2: 计算 $\alpha$

我们已经知道了 attention score 的计算方式，如上图所示， $\alpha_{1,i}$ 由 ${\bf q}^1$ 和 ${\bf k}^i$ 做内积得到。还是通过矩阵乘法的角度，上述的过程可以看作：

继续扩展：

attention score 的矩阵 ${\bf A}$ 是由 ${\bf K}^{\rm T},\ {\bf Q}$ 做矩阵乘法得到，即 ${\bf A}={\bf K}^{\rm T}{\bf Q}$ ；attention score 再标准化一下（这里选择 $so f t ma x$ ）得到矩阵 ${\bf A}'$ （attention matrix）。

Step 3: 计算 ${\bf b}^i$

如上图所示，我们已经知道了 ${\bf b}^i=\sum_j\alpha'_{i,j} {\bf v}_j$ ，接下来用矩阵乘法的角度来看这一过程。

如上图所示，利用矩阵乘法得到 ${\bf b}^i$ 组成的矩阵 ${\bf O}$ （output），也就是 self-attention 最终的输出。

Brief Summary

计算 ${\bf q}^i,\ {\bf k}^i, {\bf v}^i$ ：

计算 $\alpha$ :

计算 ${\bf b}^i$ :

虽然 self-attention 这一系列操作做下来会有些复杂，但仅有矩阵 ${\rm W}^q,\ {\rm W}^k,\ {\rm W}^v$ 是需要训练学习到的参数。

Multi-head Self-attention

在翻译、语音识别，利用 multi-head 可能会有较好的结果。为什么需要 multi-head？在做 self-attention 的时候，我们在用 ${\bf q}$ 去找相关的 ${\bf k}$ ，而向相关的种类有很多种，因此我们需要不同的 ${\bf q}$ 负责不同种类的相关性。

以 $2$ 头为例， ${\bf q}^i,\ {\bf k}^i, {\bf v}^i$ 分别乘上两个矩阵得到 ${\bf q}^{i,1},\ {\bf q}^{i,2};\ {\bf k}^{i,1},\ {\bf k}^{i,2},\ {\bf v}^{i,1},\ {\bf v}^{i,2}$ 。计算 self-attention 的步骤类似，但多头之间的计算仅涉及一类。如上图所示，计算 ${\bf b}^{i,1}$ ，首先分别计算出 ${\bf q}^{i,1}$ 与 ${\bf k}^{i,1}$ 和 ${\bf k}^{j,1}$ 的 attention score，接下来将这两个 attention score 分别乘上 ${\bf v}^{i,1},\ {\bf v}^{j,1}$ 再进行 $\text{weighted sum}$ 到一起就是 ${\bf b}^{i,1}$ 。