『Transformer/BERT』Transformer和BERT的位置编码

最新推荐文章于 2024-07-12 17:15:01 发布

Hoshino Ren

最新推荐文章于 2024-07-12 17:15:01 发布

阅读量4.3k

点赞数 6

分类专栏：一定不可忘记的深度学习物语文章标签：自然语言处理深度学习人工智能

本文链接：https://blog.csdn.net/weixin_41300383/article/details/124050744

版权

一定不可忘记的深度学习物语专栏收录该内容

4 篇文章 1 订阅

订阅专栏

Transformer和BERT的位置编码

为什么要对位置进行编码？

Attention提取特征的时候，可以获取全局每个词对之间的关系，但是并没有显式保留时序信息，或者说位置信息。就算打乱序列中token的顺序，最后所得到的Attention结果也不会变，这会丢失语言中的时序信息，因此需要额外对位置进行编码以引入时序信息。

Position Embedding in Transformer

在Transformer中，位置编码是由 $s i n / c o s$ 函数生成的固定值。

具体做法：用不同频率的正余弦函数对位置信息进行编码，位置编码向量的维度与文本编码向量的维度相同，即 $d_{model}$ 。因此二者可以直接相加作为token最终的编码向量。

$PE_{(pos, 2i)} = sin(pos/10000^{2i/d_{model}})\\ PE_{(pos, 2i+1)} = cos(pos/10000^{2i/d_{model}})$

$p o s$ 表示位置， $i$ 表示所在维度。

这种位置编码方式可以方便模型学习相对位置特征，对于相隔为 $k$ 的两个位置 $p_1$ 和 $p_2=p_1+k$ ， $PE_{(p_2,)}$ 可以表示为 $PE_{(p_1,)}$ 的线性组合。

$PE_{(p_2,2i)} = sin((p_1+k)/10000^{2i/d_{model}})\\= sin(p_1/10000^{2i/d_{model}})C_{(k,1)} + cos(p_1/10000^{2i/d_{model}})C_{(k,2)}\\=PE_{(p_1,2i)}C_{(k,1)} + PE_{(p_1,2i+1)}C_{(k,2)}$

即使测试集中某些样本超出了最大文本长度，这种编码方式仍然可以获得有效的相对位置表示。

Position Embedding in BERT

在BERT中，与一般的词嵌入编码类似，位置编码也是随机生成且可训练的，维度为[seq_length, width]，其中seq_length代表序列长度，width代表每一个token对应的向量长度。

从实现上可以看到，BERT中将位置编码创建为一个tensorflow变量，并将其broadcast到与词嵌入编码同维度后相加。

with tf.control_dependencies([assert_op]):
      full_position_embeddings = tf.get_variable(
          name=position_embedding_name,
          shape=[max_position_embeddings, width],
          initializer=create_initializer(initializer_range))

      # 这里position embedding是可学习的参数，[max_position_embeddings, width]
      # 但是通常实际输入序列没有达到max_position_embeddings
      # 所以为了提高训练速度，使用tf.slice取出句子长度的embedding
      position_embeddings = tf.slice(full_position_embeddings, [0, 0],
                                     [seq_length, -1])
      num_dims = len(output.shape.as_list())

      # word embedding之后的tensor是[batch_size, seq_length, width]
      # 因为位置编码是与输入内容无关，它的shape总是[seq_length, width]
      # 我们无法把位置Embedding加到word embedding上
      # 因此我们需要扩展位置编码为[1, seq_length, width]
      # 然后就能通过broadcasting加上去了。
      position_broadcast_shape = []
      for _ in range(num_dims - 2):
        position_broadcast_shape.append(1)
      position_broadcast_shape.extend([seq_length, width])
      position_embeddings = tf.reshape(position_embeddings,
                                       position_broadcast_shape)
      output += position_embeddings

两者之间的区别

Transformer的位置编码是一个固定值，因此只能标记位置，但是不能标记这个位置有什么用。

BERT的位置编码是可学习的Embedding，因此不仅可以标记位置，还可以学习到这个位置有什么用。

BERT选择这么做的原因可能是，相比于Transformer，BERT训练所用的数据量充足，完全可以让模型自己学习。

如何延拓BERT的位置编码？

我们知道，BERT模型最多只能处理512个token的文本，其原因在于BERT使用了随机初始化训练出来的绝对位置编码，最大位置设为为512，若是文本长于512便无位置编码可用。

另一方面，Attention的 $O(n^2)$ 复杂度使得长序列的显存用量极大，一般显卡就连finetune也做不到。

苏神提出了一种层次分解的方法将BERT的位置编码最多可以延拓至 $n^2$ ，即 $512^2=26万$ 。

具体内容可自行阅读苏神博客

层次分解位置编码，让BERT可以处理超长文本

参考

以上内容总结摘录自以下诸多博客以及《百面深度学习》一书。

bert和transformer的位置编码有什么区别？

BERT源码解析摘自该博客

BERT源码分析PART I

多种位置编码方式讲解

相对位置编码和绝对位置编码原理及源码

Hoshino Ren

关注

6
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
『Transformer/BERT』Transformer和BERT的位置编码

Transformer和BERT的位置编码为什么要对位置进行编码？Position Embedding in TransformerPosition Embedding in BERT两者之间的区别如何延拓BERT的位置编码？参考为什么要对位置进行编码？Attention提取特征的时候，可以获取全局每个词对之间的关系，但是并没有显式保留时序信息，或者说位置信息。就算打乱序列中token的顺序，最后所得到的Attention结果也不会变，这会丢失语言中的时序信息，因此需要额外对位置进行编码以引入时序信息
复制链接

扫一扫