【扒代码】位置编码

最新推荐文章于 2024-09-03 14:49:33 发布

dearRongerr

最新推荐文章于 2024-09-03 14:49:33 发布

阅读量133

点赞数 5

分类专栏：扒代码文章标签：深度学习人工智能 pytorch

本文链接：https://blog.csdn.net/2301_77549977/article/details/141110105

版权

扒代码专栏收录该内容

52 篇文章 1 订阅

订阅专栏

self.pos_emb = PositionalEncodingsFixed(emb_dim)

# self.pos_emb(bs, h, w, src.device).shape = torch.Size([4, 256, 64, 64])
# self.pos_emb(bs, h, w, src.device).flatten(2).shape = torch.Size([4, 256, 4096])
# pos_emb.shape = torch.Size([4096, 4, 256])
# self.pos_emb = PositionalEncodingsFixed()
pos_emb = self.pos_emb(bs, h, w, src.device).flatten(2).permute(2, 0, 1)

emb_dim = 256

位置编码（Positional Encoding）的主要目的是为模型提供序列中每个元素的位置信息，这样模型就可以利用这些信息来理解序列数据的结构。在自然语言处理（NLP）中，这是非常常见的做法，而在计算机视觉（CV）中，位置编码也被用于Transformer架构，以帮助模型理解图像中的空间关系。

这个 PositionalEncodingsFixed 类的实现确实看起来简单，但它实际上包含了一些关键的操作来生成位置编码：

初始化 (__init__): 类接收 emb_dim（嵌入维度）和 temperature（温度参数，用于调整编码的周期性）。这些参数用于控制位置编码的生成过程。
一维位置编码 (_1d_pos_enc): 这是一个辅助方法，用于生成一维位置编码。它首先计算一个温度调整的频率因子，然后使用这个因子来生成正弦和余弦波，这些波按照序列中的位置进行编码。正弦和余弦函数的组合允许模型捕获不同频率的周期性信息。
前向传播 (forward): 这个方法首先创建一个全零的掩码 mask，其大小与输入的批次大小 bs、高度 h 和宽度 w 相匹配。然后，它在两个维度（高度和宽度）上分别调用 _1d_pos_enc 方法来生成位置编码。最后，将两个方向上的位置编码合并，并使用 permute 调整维度顺序，以匹配后续模型的要求。

位置编码的生成之所以可以这么简单，是因为它基于以下几个原因：

正余弦函数：位置编码通常使用正弦和余弦函数的组合来生成不同频率的波，这些波可以编码序列中元素的位置信息。
温度参数：温度参数用于调整编码的频率，这有助于控制编码的粒度，使其适应不同的任务和模型大小。
维度分离：在二维数据（如图像）中，可以分别在两个维度上生成位置编码，然后将它们合并。这种方法可以独立地捕获每个维度上的位置信息。
高效实现：PyTorch 提供了强大的张量操作，可以高效地实现复杂的数学函数和逻辑，使得位置编码的生成既简单又高效。

总之，虽然代码看起来简单，但它实现了位置编码的核心功能，即提供序列中每个元素的位置信息，这对于Transformer模型来说是非常重要的。

dearRongerr

关注

5
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【扒代码】位置编码

在自然语言处理（NLP）中，这是非常常见的做法，而在计算机视觉（CV）中，位置编码也被用于Transformer架构，以帮助模型理解图像中的空间关系。：PyTorch 提供了强大的张量操作，可以高效地实现复杂的数学函数和逻辑，使得位置编码的生成既简单又高效。：位置编码通常使用正弦和余弦函数的组合来生成不同频率的波，这些波可以编码序列中元素的位置信息。：温度参数用于调整编码的频率，这有助于控制编码的粒度，使其适应不同的任务和模型大小。在二维数据（如图像）中，可以分别在两个维度上生成位置编码，然后将它们合并。
复制链接

扫一扫

专栏目录