2023-03-22干活小计：

辉辉小学生

于 2023-03-22 22:55:18 发布

阅读量466

点赞数

分类专栏：每日学习打卡文章标签：深度学习 python 人工智能

本文链接：https://blog.csdn.net/huihuixiaoxue/article/details/129711634

版权

每日学习打卡专栏收录该内容

39 篇文章

订阅专栏

本文介绍了Transformer模型中的关键组件，包括位置嵌入（PositionEmbedding）的计算方法，如使用正弦和余弦函数来编码位置信息，以及残差连接（AddNorm）。同时，提到了自注意力（Self-Attention）在结合位置信息和特征信息中的作用。另外，文章还提及了MaskedLoss，用于在训练时忽略填充（Padding）部分，以提高模型效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

transformer:

position-embedding:

残差：我也会了

addnorm：我也会了

class Position_Embedding(nn.Module):
    def __init__(self, max_len, embedding_dim):
        self.max_len = max_len
        self.embedding_dim = embedding_dim
        result = torch.ones(self.max_len, self.embedding_dim, requires_grad=False)
        pos = torch.arange(max_len)[:, None]
        i_even = torch.arange(0, embedding_dim, 2)[None, :]
        i_odd = torch.arange(1, embedding_dim, 2)[None, :]
        even_value = pos / (10000**(2*i_even/self.embedding_dim))
        odd_value = pos / (10000**(2*i_odd/self.embedding_dim))
        result[:, 0::2] = torch.sin(even_value)
        result[:, 1::2] = torch.cos(odd_value)
        self.position_embedding = result
    def forward(self, x):
        position_embedding = x + self.position_embedding
        return position_embedding

self-attention以及mask-padding部分: