论文原文:https://arxiv.org/abs/1810.04805
代码实现:https://github.com/google-research/bert
按照原文结构记录总结
#1.Introduction
elmo = feature_based approach,双层双向LSTM
GPT = fine-tuning approach,transformer decoder
缺点:
这两个模型left_to_right or right_to_left都是单向的contextional embedding
bert: masked language model; 通过mask来获得其上下文相关的向量表达
备注:
ELMO和GPT是bert模型的基础
#2. Related work
#3.Bert
3.1 pretraining
两种训练方式:
masked LM [masked]用作于预测的单词 ; next sentence prediction(NSP)
3.2 fine-tuning
bert可以用来解决四种类型的任务
1.句子分类
[CLS]特殊标注在句子开头,其最终的向量表达来做为整个句子的表达。[CLS]向量通过MLP进行分类判断
2.Token分类
类似任务1,不过每个Token的向量表达,分别通过MLP进行分类判断
3.推理
两个句子的分类,[CLS]作为句子开头,[SEP]作为两个句子的分割符号。类似任务1,[CLS]是任务分类的向量表达
4.QA问答
后续总结…
#4.Reslut
略过
#5.参考引用
1.https://github.com/NLP-LOVE/ML-NLP/tree/master/NLP/16.8%20BERT
2.李宏毅Bert https://w