Datawhale NLP课程 Task4

最新推荐文章于 2024-09-12 19:45:22 发布

wangruohann

最新推荐文章于 2024-09-12 19:45:22 发布

阅读量115

点赞数

分类专栏：机器学习文章标签：自然语言处理深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangruohan1995/article/details/119899041

版权

机器学习专栏收录该内容

16 篇文章 0 订阅

订阅专栏

BERT-based Models应用模型

BertForPreTraining

BERT 预训练任务包括两个:

Masked Language Model（MLM）：在句子中随机用[MASK]替换一部分单词，然后将句子传入 BERT 中编码每一个单词的信息，最终用[MASK]的编码信息预测该位置的正确单词，这一任务旨在训练模型根据上下文理解单词的意思；
Next Sentence Prediction（NSP）：将句子对 A 和 B 输入 BERT，使用[CLS]的编码信息进行预测 B 是否 A 的下一句，这一任务旨在训练模型理解预测句子间的关系。

BertForSequenceClassification

这一模型用于句子分类（也可以是回归）任务，比如 GLUE benchmark 的各个任务。句子分类的输入为句子（对），输出为单个分类标签。

BertForMultipleChoice

这一模型用于多项选择，如 RocStories/SWAG 任务.

BertForTokenClassification

这一模型用于序列标注（词分类），如 NER 任务。

BertForQuestionAnswering

这一模型用于解决问答任务，例如 SQuAD 任务。

BERT训练和优化

Pre-Training

预训练阶段，除了众所周知的 15%、80% mask 比例，有一个值得注意的地方就是参数共享。不止 BERT，所有 huggingface 实现的 PLM 的 word embedding 和 masked language model 的预测权重在初始化过程中都是共享的：

Fine-Tuning

优化器：AdamW
Warmup:在训练初期使用较小的学习率（从 0 开始），在一定步数（比如 1000 步）内逐渐提高到正常大小（比如上面的 2e-5），避免模型过早进入局部最优而过拟合；

Reference

https://github.com/datawhalechina/Learn-NLP-with-Transformers

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Datawhale NLP课程 Task4

BERT-based Models应用模型BertForPreTrainingBERT 预训练任务包括两个:Masked Language Model（MLM）：在句子中随机用[MASK]替换一部分单词，然后将句子传入 BERT 中编码每一个单词的信息，最终用[MASK]的编码信息预测该位置的正确单词，这一任务旨在训练模型根据上下文理解单词的意思；Next Sentence Prediction（NSP）：将句子对 A 和 B 输入 BERT，使用[CLS]的编码信息进行预测 B 是否 A 的下一
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。