Bert_Position_Embedding

最新推荐文章于 2023-06-22 20:44:47 发布

枝头的云雀

最新推荐文章于 2023-06-22 20:44:47 发布

阅读量2.8k

点赞数

文章标签： python 深度学习 nlp

本文链接：https://blog.csdn.net/miao243062960/article/details/112230552

版权

nlp 专栏收录该内容

5 篇文章 1 订阅

订阅专栏

因为没有循环神经网络做迭代，所以我们加上位置编码，以避免计算机无法区分“我是你爸”和“你是我爸”等等。

对于一个维度762的字向量
我们需要一个762维度的位置编码
之后相加操作喂入Transformer
位置嵌入的公式如下：
在这里插入图片描述
我对其纹理进行可视化：

import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
plt.figure(figsize=(15, 10))
sns.set()
np.random.seed(0)
max_sequence_lenth = 500
embeding_dim=762
jishu=10000
i_max=int((embeding_dim-1)/2)
datas=[]
for pos in range(max_sequence_lenth):
    posithon_embeding = []
    for i in range(i_max+1):
        posithon_embeding.append(np.sin(pos/(pow(jishu,(2*i)/embeding_dim))))
        posithon_embeding.append(np.cos(pos/(pow(jishu,(2*i)/embeding_dim))))
    datas.append(posithon_embeding)
uniform_data = np.array(datas)
ax = sns.heatmap(uniform_data)
plt.show()

横坐标是位置纹理维度，纵坐标是一句话的第几个字

对于0-1之间的线性维度标注法（那种按照位置1，2，3，4……500……这样不在0-1的编码可以完全pass了）

还有啊如果用i/sequence_length的也不行。
在短文本中字与字相差0.1可能代表相邻的两个字，而在长文本中0.1可能中间还间隔了几个字。

而同一采用上述的sin cos的纹理能很好得将训练完的模型适用于喂入各种长度的文本，不论文本长短，其位置编码按上图从上往下固定不变，（要采用该模型，就不变其维度762）

枝头的云雀

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Bert_Position_Embedding

因为没有循环神经网络做迭代，所以我们加上位置编码，以避免计算机无法区分“我是你爸”和“你是我爸”等等。对于一个维度762的字向量我们需要一个762维度的位置编码之后相加操作喂入Transformer位置嵌入的公式如下：我对其纹理进行可视化：import numpy as npimport seaborn as snsimport matplotlib.pyplot as pltplt.figure(figsize=(15, 10))sns.set()np.random.seed(0)
复制链接

扫一扫