台大李宏毅自注意力机制和Transformer详解

溯源006

已于 2023-04-01 10:23:24 修改

阅读量723

点赞数 2

分类专栏：深度学习相关算法学习文章标签： transformer 深度学习人工智能

于 2023-03-25 13:06:40 首次发布

本文链接：https://blog.csdn.net/l963852k/article/details/129765160

版权

深度学习相关算法学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

本文是关于李宏毅教授讲解的自注意力机制的总结，强调了自注意力在处理变长序列上下文关系中的灵活性，以及其在Transformer架构中的重要性。Transformer通过self-attention机制考虑整个序列信息，用于多种任务如词性标注、语音识别等，且self-attention可以叠加使用，以融合信息和关注特定位置。

摘要由CSDN通过智能技术生成

台大李宏毅自注意力机制和Transformer详解！

0 前言

本文主要是对李宏毅老师讲的自注意力机制部分进行的记录。视频链接如下：

10.【李宏毅机器学习2021】自注意力机制 (Self-attention) (上)_哔哩哔哩_bilibili

本文只是对self-attention的总结，transformer的总结见
台大李宏毅自注意力机制和Transformer详解（续）！

1 总结

把总结写在前面是为了以后再返回来回忆知识点的时候，不用拉到最下方去看总结。所以总结如下：

1）很多应用需要考虑上下文的内容，比如对“I saw a saw”进行词性标注，前后两个saw显然是不一样的，这需要考虑上下文的关系。

2）滑动窗口的方式可以考虑上下文，但是不灵活，毕竟句子可长可短，长度不一。self-attention可以很好的处理这种情况（更灵活的考虑变长序列的上下文关系）。

3）self-attention就是从一个序列 ${a^i\}$ 得到另一个序列 ${b^i\}$ ，其中任意一个 $b^i$ 都考虑了所有 $a^i$ ，用课程最具有总结性的一张slide总结如下：
在这里插入图片描述

4）self-attention可以叠加很多次。也就是self-attention与FC交替使用。self-attention负责融合整个seq的信息，FC专注特定位置

5）谷歌提出了transformer的架构，transformer里面最重要的模块就是self-attention

2 正篇开始

在这里插入图片描述
模型的输入有可能是一个向量，比如MLP，有的时候输入也会是一串向量，而且串的长度还可能是变化的。

在这里插入图片描述
输入是一串向量的情形的举例1：一个句子，每个词是一个向量。至于怎么把词映射成向量，有很多种方法。

在这里插入图片描述
输入是一串向量的情形的举例2：一长段语音，每个小语音段可以用一个向量表示（也是有很多方法），然后平移一个窗口，这样一长段语音就有小段语音的向量表示串起来表示

输入是一串向量的情形的举例3：一个graph（社交网络，分子结构），每个节点可以用一个向量表示

在这里插入图片描述
输出也是有多种方式：方式1：每个输入向量对应一个输出的label。举例：1）句子词性识别；2）语音音标识别；3）推荐（客户是否购买商品）

在这里插入图片描述
方式2：整个向量串对应一个输出的label。举例：1）句子好坏识别；2）语音speaker识别；3）分子结构毒性识别

在这里插入图片描述

方式3：输出长度不固定，对应seq2seq，举例：对话

在这里插入图片描述
本次课先只讲第一种情形：输出label个数与输入向量个数一样，称为sequence labeling。可以让每个vector 输入到一个FC里面，分别输出预测。但是这样就忽略了这些向量之间的上下文关系（很重要）。比如上面课件里的第一个saw和第二个saw词性是不一样的，需要考虑到上下文才可以。

在这里插入图片描述
这样弄一个窗口就可以了，但是这样的话，窗口的size不好固定，因为句子的长度是变化的。为了解决这个问题，（为了更好的解决整个input sequence信息）self-attention就来了。

self-attention机制：将整个seq全部输入，有几个向量就输出几个向量，输出的向量是考虑整个seq后得到的。（至于如何考虑整个seq后面讲）。把考虑了整个seq后的向量再前馈到FC中，来决定他是什么类别。这样FC就考虑了所有的seq包含的信息。

在这里插入图片描述
self-attention可以叠加很多次。也就是self-attention与FC交替使用。self-attention负责融合整个seq的信息，FC专注特定位置。

在这里插入图片描述
self-attention最著名的文章就是《Attention is all you need》。在这片文章里，谷歌提出了transformer的架构，transformer里面最重要的模块就是self-attention。

在这里插入图片描述
self-attention：每个输出b都是考虑了所有的输入a。

在这里插入图片描述
下面看看怎么产生 $b^1$ 这个向量（其他的都一样）。第一个步骤：根据 $a^1$ 找到seq里面与 $a^1$ 相关的其他向量。self-attention的目的就是要考虑整个seq，但是又不希望弄在一个窗口里。所以有个机制，就是找出整个seq里面，找出那些与判断 $a^1$ 是相关性很大的。这个关联程度用 $\alpha$ 表示。接下来的问题就是，self-attention怎么自动决定，两个向量之间的关联性呢？