1、前馈层 前馈层接收自注意力层的输出作为输入。 from torch import nn import torch.nn.functional as F class FeedForward(nn.Module): def __init__(self, d_model=512, d_ff=2048, dropout=0.1): super().__init__