【从 0 开始学习 Transformer】拾遗：文章本身的问题与解释

最新推荐文章于 2024-08-14 16:19:45 发布

SangrealLilith

最新推荐文章于 2024-08-14 16:19:45 发布

阅读量352

点赞数

分类专栏：学术笔记本文章标签： Transformer NLP 自然语言处理深度学习

本文链接：https://blog.csdn.net/SangrealLilith/article/details/103875895

版权

学术笔记本专栏收录该内容

3 篇文章 0 订阅

订阅专栏

首先感谢中科院计算所王子和先生提供的宝贵意见。

由于文章结构的关系，为了能够同时兼顾代码的真实和描述的通俗。我使用了一些可能会有一定误导性的举例说明。在这里做一些解释。

1. 关于 batch_size

在本系列上篇的 5.2.2. 使用向量化来提升效率，一节中。我使用了这样的描述：

举个例子：若有 batch_size 批次，每批次 N 条的 Query，Key。其计算完全可以组织成 (batch_size, N, seq_len_q, depth)点乘(batch_size, N, seq_len_q, depth)的转置，最终得到(batch_size, N, seq_len_q, seq_len_k) 形状的张量。

熟悉深度学习的同学会发现，batch_size 这样的名字通常是用来描述一个批次的尺寸的，而并非描述批次数量。在 NLP 中，一次训练为一个批（batch），而一批若有 64 个句子，则 batch_size 为 64。在Transformer的实现中，它也是这样的含义。

举这个例子时，我是从最右维度为最小单位描述的，那么从最右数，第一维度是词嵌入（或特征向量）的维度，第二个维度是句子的维度，那第三个维度只能是批次的尺寸（而事实上，第三个维度N 是多头注意力的头数，是一个临时加入的维度，第四个维度才是批次的尺寸），描述这段文字的时候还没有介绍多头注意力，所以无奈之举将 batch_size 临时改了含义。

2. 关于多头注意力的计算图示带来的误导

在这里插入图片描述

这张图引用自国外的知名博客（在本系列上篇中提及）。显然为了能够更加直观易懂，这张图并非是基于 Transformer 真实的实现绘制的，而是按照多头注意力的原理绘制的。

但是一些读者看到这篇文章再结合代码可能会带来一些困惑。

在代码中，有两个关键的尺寸 depth 和 d_model。事实上，前者和后者的唯一关系是，前者刚好是后者拆成的 8 份之一，两者之间的转换只存在于拆分多头步骤，并没有其他任何映射关系（全连接网络）。

由于这张图的抽象化：词嵌入的矩阵看起来显然小于 8 个头的 K Q V；最后多头拼接的一个长长的结果 $W^O$ 转换成一个 $Z$ ，读者可能会认为词嵌入的深度是 depth ，再经过一次全连接网络得到一个d_model 然后拆成多头，最后输出结果拼成 d_model 再经过一次全连接得到 depth，循环往复。

事实上并不是这样，在多个编码器解码器层中，从一开始的词嵌入的深度就是 d_model，经过一次全连接网络得到映射后的KQV——深度同样是 d_model，然后拆成多头，计算后拼接恰好也是d_model。再回到一开始，循环往复。

也就是说，每一层注意力机制外，只有一层全连接网络。

SangrealLilith

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【从 0 开始学习 Transformer】拾遗：文章本身的问题与解释

首先感谢中科院计算所王子和先生提供的宝贵意见。由于文章结构的关系，为了能够同时兼顾代码的真实和描述的通俗。我使用了一些可能会有一定误导性的距离说明。在这里做一些解释。1. 关于 batch_size在本系列上篇的 5.2.2. 使用向量化来提升效率，一节中。我使用了这样的描述：举个例子：若有 batch_size 批次，每批次 N 条的 Query，Key。其计算完全可以组织成 (ba...
复制链接

扫一扫

专栏目录