Transformer模型：Postion Embedding实现

最新推荐文章于 2024-08-26 20:53:16 发布

七夜zippoe

最新推荐文章于 2024-08-26 20:53:16 发布

阅读量345

点赞数 7

分类专栏： # AI 人工智能文章标签： transformer embedding 深度学习

本文链接：https://blog.csdn.net/sinat_41617212/article/details/141567205

版权

人工智能同时被 2 个专栏收录

57 篇文章 0 订阅

订阅专栏

18 篇文章 0 订阅

订阅专栏

在Transformer模型中，位置编码（Position Embedding）用于提供序列中每个位置的位置信息，以弥补序列输入缺乏显式顺序信息的问题。Transformer模型的关键思想之一是它并不依赖序列中的相对或绝对位置，而是通过自注意力机制处理输入，因此需要通过位置编码来注入位置信息。

位置编码的实现

位置编码有两种主要方式：固定位置编码（Sinusoidal Position Embedding） 和 可学习的位置编码（Learnable Position Embedding）。下面我们来详细讨论这两种实现方法。

1. 固定位置编码（Sinusoidal Position Embedding）

这是Transformer论文中使用的位置编码方法。它使用正弦和余弦函数来为每个位置生成一个确定的向量。具体公式如下：

[
PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{\frac{2i}{d_{\text{model}}}}}\right)
]

[
PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{\frac{2i}{d_{\text{model}}}}}\right)
]

其中：

( pos ) 是序列中的位置索引。
( i ) 是位置编码向量的维度索引。
( d_{\text{model}} ) 是模型的隐藏层维度大小。

每个位置的编码都是一个长度为 ( d_{\text{model}} ) 的向量，其中偶数维度使用正弦函数，奇数维度使用余弦函数。

这种方式的优势是它不依赖模型的训练参数，且对于不同的序列长度都适用。编码生成的向量具有不同位置之间的相对位置信息。

实现代码

import numpy as np
import torch

def sinusoidal_position_encoding(seq_len, d_model):
    position = np.arange(seq_len)[:, np.newaxis]
    div_term = np.exp(np.arange(0, d_model, 2) * -(np.log(10000.0) / d_model))
    
    pos_encoding = np.zeros((seq_len, d_model))
    pos_encoding[:, 0::2] = np.sin(position * div_term)
    pos_encoding[:, 1::2] = np.cos(position * div_term)
    
    return torch.tensor(pos_encoding, dtype=torch.float32)

# 使用示例
seq_len = 10
d_model = 512
pos_encoding = sinusoidal_position_encoding(seq_len, d_model)
print(pos_encoding.shape)  # 输出: torch.Size([10, 512])

2. 可学习的位置编码（Learnable Position Embedding）

另一种方式是将位置编码作为可学习的参数。这种方法为每个位置创建一个可训练的向量，这些向量在训练过程中被学习和优化。

实现代码

import torch
import torch.nn as nn

class LearnablePositionEmbedding(nn.Module):
    def __init__(self, seq_len, d_model):
        super(LearnablePositionEmbedding, self).__init__()
        self.position_embeddings = nn.Embedding(seq_len, d_model)
        
    def forward(self, x):
        # 假设输入x的shape是 [batch_size, seq_len, d_model]
        positions = torch.arange(x.size(1), device=x.device).unsqueeze(0)
        position_embeddings = self.position_embeddings(positions)
        return x + position_embeddings

# 使用示例
seq_len = 10
d_model = 512
batch_size = 32

x = torch.randn(batch_size, seq_len, d_model)
pos_embedding_layer = LearnablePositionEmbedding(seq_len, d_model)
x_with_pos = pos_embedding_layer(x)
print(x_with_pos.shape)  # 输出: torch.Size([32, 10, 512])

总结

固定位置编码 是基于正弦和余弦函数的，具有确定性和无需训练的特点。
可学习的位置编码 则是在训练过程中与模型一起优化，灵活性更高。

在实际应用中，可以根据具体任务和需求选择合适的位置编码方式。

七夜zippoe

关注

7
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
Transformer模型：Postion Embedding实现

固定位置编码是基于正弦和余弦函数的，具有确定性和无需训练的特点。可学习的位置编码则是在训练过程中与模型一起优化，灵活性更高。在实际应用中，可以根据具体任务和需求选择合适的位置编码方式。
复制链接

扫一扫