Transformer架构
Embeddings from Language Model (ELMO)
- 一种基于上下文的预训练模型,用于生成具有语境的词向量。
- 原理讲解
- ELMO中的几个问题
Bidirectional Encoder Representations from Transformers (BERT)
- BERT就是原生transformer中的Encoder
- 两个学习任务:MLM和NSP
-
Masked Language Model:将输入句子中的某些token随机替换为[MASK],然后基于上下文预测这些被替换的token。学习局部语义和上下文依赖关系。这有助于BERT理解每个词的表达。
-