- 博客(2)
- 收藏
- 关注
原创 Transformer小结
Attention is all you needTransformerLayerNorm(x + Sublayer(x))整理的Transformer 伪代码输入 Inputs 输出 OutputsX = Positional_Encoding(Input_Embedding(Inputs))X = LayerNorm(X + Multi-Head_Attention(X))X ...
2019-07-24 16:40:18 1300
翻译 XLNet: Generalized Autoregressive PreTraining for Language Understanding
XLNet: Generalized Autoregressive PreTraining for Language Understanding个人翻译,并不专业。论文地址https://arxiv.org/pdf/1906.08237.pdfXLNet: 语言理解的广义自回归预训练摘要具有双向上下文建模,自动编码去燥的能力与基于自动回归语言模型的预训练方法相比,基于BERT的预训...
2019-07-18 20:57:42 962 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人