【Transformer】基于位置的前馈网络

最新推荐文章于 2025-03-03 21:50:00 发布

彬彬侠

最新推荐文章于 2025-03-03 21:50:00 发布

阅读量1.4k

点赞数 24

分类专栏：自然语言处理基础文章标签：基于位置的前馈网络 Feedforward transformer pytorch python NLP 自然语言处理

本文链接：https://blog.csdn.net/u013172930/article/details/145630289

版权

自然语言处理基础专栏收录该内容

69 篇文章

订阅专栏

基于位置的前馈网络（Position-wise Feedforward Network）是 Transformer 架构中的一个重要组件，通常位于 自注意力（Self-Attention）层之后。它是一个逐位置（position-wise）的前馈神经网络，每个位置的特征向量在这个网络中都会经过相同的处理，但不同位置的输出是独立的。

位置前馈网络（Position-wise Feedforward Network）简介

位置前馈网络的作用是通过一系列的非线性变换进一步处理自注意力层输出的特征。这个网络包括两个主要的线性变换和一个激活函数（通常是 ReLU）。它的核心思想是对每个位置的表示进行独立处理，保持 Transformer 中“位置独立”的特性。

组成部分

位置前馈网络的典型结构如下：

第一个线性变换：将每个位置的输入通过一个全连接层，通常这个层会将维度扩展（即将输入特征维度从 $d_{model}$ 扩展到更大的维度 $d_{ff}$ ）。
激活函数：通常使用 ReLU（或其他非线性激活函数）进行激活，增加网络的非线性。
第二个线性变换：将经过激活后的输出通过另一个全连接层，通常将特征维度从 $d_{ff}$ 映射回 $d_{model}$ 。
残差连接：像其他 Transformer 层一样，位置前馈网络后面通常会有一个残差连接（Skip Connection），并进行层归一化（Layer Normalization）。

数学公式

假设输入为 $x$ ，经过前馈网络后的输出为 $\text{FFN}(x)$ ，其计算过程如下：

第一个线性层： $\text{FFN}_1(x) = \text{ReLU}(xW_1 + b_1)$ ，其中 $W_1$ 是第一个线性层的权重矩阵， $b_1$ 是偏置。
第二个线性层： $\text{FFN}_2(x) = \text{FFN}_1(x) W_2 + b_2$ ，其中 $W_2$ 是第二个线性层的权重矩阵， $b_2$ 是偏置。
最终输出为： $\text{output} = \text{FFN}_2(x)$

具体实现（以 PyTorch 为例）

在 PyTorch 中，位置前馈网络通常实现为一个继承自 nn.Module 的类。示例如下：

import torch
import torch.nn as nn

class PositionwiseFeedforward(nn.Module):
    def __init__(self, d_model, d_ff, dropout=0.1):
        super(PositionwiseFeedforward, self).__init__()
        self.linear1 = nn.Linear(d_model, d_ff)  # 第一个线性变换
        self.relu = nn.ReLU()  # 激活函数
        self.linear2 = nn.Linear(d_ff, d_model)  # 第二个线性变换
        self.dropout = nn.Dropout(dropout)  # Dropout层

    def forward(self, x):
        # x.shape = (batch_size, seq_len, d_model)
        x = self.linear1(x)  # 输入经过第一个线性变换
        x = self.relu(x)  # 激活
        x = self.dropout(x)  # Dropout
        x = self.linear2(x)  # 输入经过第二个线性变换
        return x

# 示例：输入维度为 d_model=512，前馈层维度为 d_ff=2048
d_model = 512
d_ff = 2048
dropout = 0.1
ffn = PositionwiseFeedforward(d_model, d_ff, dropout)

# 假设有一个 batch_size=32，seq_len=10 的输入数据
x = torch.randn(32, 10, d_model)  # 输入数据的形状为 (batch_size, seq_len, d_model)
output = ffn(x)

print(output.shape)  # 输出数据的形状应为 (batch_size, seq_len, d_model)

关键点

位置独立：位置前馈网络是逐位置独立处理的，即每个位置的特征向量在这个网络中都经过相同的操作。
两个全连接层：包括两个线性变换和一个激活函数（通常是 ReLU），这使得位置前馈网络有较强的表达能力。
残差连接：虽然代码示例没有直接显示，但在 Transformer 中，通常会将前馈网络的输出与输入进行加法操作，形成残差连接 $\text{output}$ ，并进行归一化处理。