GPT-2 详解

和BERT的Transformer-encoder相比区别是有Attention Mask,

GPT准确的讲 内部是Decoder-Only Block,

http://jalammar.github.io/illustrated-gpt2/

©️2020 CSDN 皮肤主题: 创作都市 设计师:CSDN官方博客 返回首页