PositionalEncoding类代码及论文原理理解

最新推荐文章于 2024-04-03 16:32:53 发布

thetffs

最新推荐文章于 2024-04-03 16:32:53 发布

阅读量160

点赞数

分类专栏：人工智能文章标签：学习

本文链接：https://blog.csdn.net/t765833631/article/details/134179468

版权

人工智能专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Transformer中PositionalEncoding类的pytorch代码实现如下：

class PositionalEncoding(nn.Module):
    "Implement the PE function."
    def __init__(self, d_model, dropout, max_len=5000):
        super(PositionalEncoding, self).__init__()
        self.dropout = nn.Dropout(p=dropout)
        
        # Compute the positional encodings once in log space.
        pe = torch.zeros(max_len, d_model)
        position = torch.arange(0, max_len).unsqueeze(1)
        div_term = torch.exp(torch.arange(0, d_model, 2) *
                             -(math.log(10000.0) / d_model))
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        pe = pe.unsqueeze(0)
        self.register_buffer('pe', pe)
        
    def forward(self, x):
        x = x + Variable(self.pe[:, :x.size(1)],requires_grad=False)
        return self.dropout(x)

这里实现了一个正余弦的序列位置编码。序列位置编码可以使用线性函数表示，也可以通过训练学习得到，论文中提出使用正余弦的位置编码可以使模型预测出在训练阶段没有见过的更长的序列长度。

论文原文公式如下：
在这里插入图片描述
此处我的疑问是代码中使用了exp和log与公式对应不上，可能是数学功底太差我推到不出来，希望之后能弄明白。

thetffs

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
PositionalEncoding类代码及论文原理理解

这里实现了一个正余弦的序列位置编码。序列位置编码可以使用线性函数表示，也可以通过训练学习得到，论文中提出使用正余弦的位置编码可以使模型预测出在训练阶段没有见过的更长的序列长度。此处我的疑问是代码中使用了exp和log与公式对应不上，可能是数学功底太差我推到不出来，希望之后能弄明白。
复制链接

扫一扫