Bert-paper reading

最新推荐文章于 2022-10-16 09:29:28 发布

cuixuange

最新推荐文章于 2022-10-16 09:29:28 发布

阅读量460

点赞数

分类专栏： machine-learning 文章标签：自然语言处理

本文链接：https://blog.csdn.net/u014297722/article/details/105922877

版权

这篇博客深入解析了BERT模型，从Introduction部分介绍了BERT相对于ELMO和GPT的优势，到Related work、BERT的预训练（pretraining）和微调（fine-tuning）过程，以及在句子分类、Token分类、推理和QA问答等任务中的应用。博主分享了BERT的代码实现链接，并提供了多个参考资料和代码分析资源。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文原文:https://arxiv.org/abs/1810.04805
代码实现:https://github.com/google-research/bert
按照原文结构记录总结

#1.Introduction
elmo = feature_based approach,双层双向LSTM
GPT = fine-tuning approach,transformer decoder
缺点:
这两个模型left_to_right or right_to_left都是单向的contextional embedding
bert: masked language model; 通过mask来获得其上下文相关的向量表达
备注:
ELMO和GPT是bert模型的基础

#2. Related work

#3.Bert
3.1 pretraining
两种训练方式:
masked LM [masked]用作于预测的单词 ; next sentence prediction(NSP)
3.2 fine-tuning
bert可以用来解决四种类型的任务
1.句子分类
[CLS]特殊标注在句子开头,其最终的向量表达来做为整个句子的表达。[CLS]向量通过MLP进行分类判断
2.Token分类
类似任务1,不过每个Token的向量表达,分别通过MLP进行分类判断
3.推理
两个句子的分类,[CLS]作为句子开头,[SEP]作为两个句子的分割符号。类似任务1,[CLS]是任务分类的向量表达
4.QA问答
后续总结…

#4.Reslut
略过

#5.参考引用
1.https://github.com/NLP-LOVE/ML-NLP/tree/master/NLP/16.8%20BERT
2.李宏毅Bert https://w