自注意力和位置编码

最新推荐文章于 2024-08-06 09:41:33 发布

ccdous

最新推荐文章于 2024-08-06 09:41:33 发布

阅读量700

点赞数 18

分类专栏：深度学习文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/qq_58317297/article/details/140910872

版权

深度学习专栏收录该内容

55 篇文章 0 订阅

订阅专栏

一、自注意力

1、给定一个由词元组成的输入序列x1,…,xn，其中任意xi∈R^d（1≤i≤n）。该序列的自注意力输出为一个长度相同的序列 y1,…,yn，其中：

2、自注意力池化层将xi当作key，value，query来对序列抽取特征得到y1,…,yn

二、跟CNN、RNN对比（目标都是将由n个词元组成的序列映射到另一个长度相等的序列，其中的每个输入词元或输出词元都由d维向量表示）（不是很明白，有空问问老师）

1、CNN：序列长度是n，输入和输出的通道数量都是d，所以卷积层的计算复杂度为O(knd^2)；卷积神经网络是分层的，因此为有O(1)个顺序操作，最大路径长度为O(n/k)。

2、RNN：当更新循环神经网络的隐状态时， d×d权重矩阵和d维隐状态的乘法计算复杂度为O(d2)。由于序列长度为n，因此循环神经网络层的计算复杂度为O(nd2)；有O(n)个顺序操作无法并行化，最大路径长度也是O(n)。

3、在自注意力中，查询、键和值都是n×d矩阵。考虑缩放的”点－积“注意力，其中n×d矩阵乘以d×n矩阵。之后输出的n×n矩阵乘以n×d矩阵。因此，自注意力具有O(n2d)计算复杂性。每个词元都通过自注意力直接连接到任何其他词元，有O(1)个顺序操作可以并行计算，最大路径长度也是O(1)。

三、位置编码

1、自注意力则因为并行计算而放弃了顺序操作。为了使用序列的顺序信息，通过在输入表示中添加 位置编码（positional encoding）来注入绝对的或相对的位置信息。

2、输入表示X∈R^(n×d)包含一个序列中n个词元的d维嵌入表示。位置编码使用相同形状的位置嵌入矩阵 P∈R^(n×d)输出X+P

3、位置编码矩阵

4、绝对位置信息

竖着看，有三维，第一维00001111变化很慢，第二位00110011变化中等，第三维01010101变化最快，大概是这样子叭。。。。

5、相对位置信息

除了捕获绝对位置信息之外，位置编码还允许模型学习得到输入序列中相对位置信息。这是因为对于任何确定的位置偏移δ，位置i+δ处的位置编码可以线性投影位置i处的位置编码来表示。也就是：

位于i+δ处的位置编码可以线性投影位置i处的位置编码来表示

令ωj=1/100002^(j/d)，对于任何确定的位置偏移δ中,任何一对 (p^(i,2j)，p^(i,2j+1))都可以线性投影到 (p^(i+δ,2j)，p^(i+δ,2j+1))

6、代码

#@save
class PositionalEncoding(nn.Module):
    """位置编码"""
    def __init__(self, num_hiddens, dropout, max_len=1000):
        super(PositionalEncoding, self).__init__()
        self.dropout = nn.Dropout(dropout)
        # 创建一个足够长的P
        self.P = torch.zeros((1, max_len, num_hiddens))
        X = torch.arange(max_len, dtype=torch.float32).reshape(
            -1, 1) / torch.pow(10000, torch.arange(
            0, num_hiddens, 2, dtype=torch.float32) / num_hiddens)
        self.P[:, :, 0::2] = torch.sin(X)
        self.P[:, :, 1::2] = torch.cos(X)

    def forward(self, X):
        X = X + self.P[:, :X.shape[1], :].to(X.device)
        return self.dropout(X)

四、总结

1、在自注意力中，查询、键和值都来自同一组输入。

2、卷积神经网络和自注意力都拥有并行计算的优势，而且自注意力的最大路径长度最短。但是因为其计算复杂度是关于序列长度的二次方，所以在很长的序列中计算会非常慢。

3、为了使用序列的顺序信息，可以通过在输入表示中添加位置编码，来注入绝对的或相对的位置信息

ccdous

关注

18
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
自注意力和位置编码

之后输出的n×n矩阵乘以n×d矩阵。令ωj=1/100002^(j/d)，对于任何确定的位置偏移δ中,任何一对 (p^(i,2j)，p^(i,2j+1))都可以线性投影到 (p^(i+δ,2j)，p^(i+δ,2j+1))这是因为对于任何确定的位置偏移δ，位置i+δ处的位置编码可以线性投影位置i处的位置编码来表示。1、CNN：序列长度是n，输入和输出的通道数量都是d，所以卷积层的计算复杂度为O(knd^2)；3、为了使用序列的顺序信息，可以通过在输入表示中添加位置编码，来注入绝对的或相对的位置信息。
复制链接

扫一扫

专栏目录