Bert-paper reading

这篇博客深入解析了BERT模型,从Introduction部分介绍了BERT相对于ELMO和GPT的优势,到Related work、BERT的预训练(pretraining)和微调(fine-tuning)过程,以及在句子分类、Token分类、推理和QA问答等任务中的应用。博主分享了BERT的代码实现链接,并提供了多个参考资料和代码分析资源。
摘要由CSDN通过智能技术生成

论文原文:https://arxiv.org/abs/1810.04805
代码实现:https://github.com/google-research/bert
按照原文结构记录总结

#1.Introduction
elmo = feature_based approach,双层双向LSTM
GPT = fine-tuning approach,transformer decoder
缺点:
这两个模型left_to_right or right_to_left都是单向的contextional embedding
bert: masked language model; 通过mask来获得其上下文相关的向量表达
备注:
ELMO和GPT是bert模型的基础

#2. Related work

#3.Bert
3.1 pretraining
两种训练方式:
masked LM [masked]用作于预测的单词 ; next sentence prediction(NSP)
3.2 fine-tuning
bert可以用来解决四种类型的任务
1.句子分类
[CLS]特殊标注在句子开头,其最终的向量表达来做为整个句子的表达。[CLS]向量通过MLP进行分类判断
2.Token分类
类似任务1,不过每个Token的向量表达,分别通过MLP进行分类判断
3.推理
两个句子的分类,[CLS]作为句子开头,[SEP]作为两个句子的分割符号。类似任务1,[CLS]是任务分类的向量表达
4.QA问答
后续总结…

#4.Reslut
略过

#5.参考引用
1.https://github.com/NLP-LOVE/ML-NLP/tree/master/NLP/16.8%20BERT
2.李宏毅Bert https://w

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值