bert中最大处理序列长度超过512的处理策略_lbertj的博客-CSDN博客_bert长度限制
Transformer 的FFN的隐层维度是 512*4 = 2048
Bert 的 FFN 隐层维度是 768*4 = 3072
FFN的隐层维度 是 Self-Attention-layer隐层维度 的4倍。
Transformer
num_encoder_layers=6,
num_decoder_layers=6,
H(隐藏层维度)=512,
A(Attention 多头个数)=8,
torch.nn.Transformer(d_mo