文献记录－BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

最新推荐文章于 2023-07-08 15:50:21 发布

wenqiang su

最新推荐文章于 2023-07-08 15:50:21 发布

阅读量233

点赞数

分类专栏：文献记录

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42681868/article/details/106695767

版权

文献记录专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文献地址：

https://arxiv.org/pdf/1810.04805.pdf

摘要：

bert 是用transformer的encoder 来构建的双向预训练模型，训练过程是无监督的，并且可以通过fine-tune的方式去获得较好的多个下游任务的效果．

简介：

预训练模型对于NLP的数据特征的提取有着很大作用，为了找到，句子和句子，词语和词语之间的联系．

现有的预训练模型有两种：基于特征的(elmo)；微调(GPT)
特点：
１：Bert使用了掩语预测的模型．
２：双向
３：预训练

模型：

bert 包括两个步骤，预训练和微调

在预训练阶段，通过不同的任务对未标记的模型进行训练
微调时，用预训练得到参数初始化模型的参数，然后再根据下游任务对参数进行微调

在这里插入图片描述［CLS］是开始标记，[SEP]是分割标记

在这里插入图片描述
bert 模型的输入格式如上，Token 表示词语的标记符号　，Segment 是句子的编号（一句话就全是０，两句话就０．．．０１．．．１），position一般不需要给会有默认值．

预训练过程

预训练过程包括:　Masked Language Model (MLM) 和 Next Setence Prediction (NSP)

MLM:
为了训练深度双向表示，文章中按照一定的百分比（１５％）随机的mask一些token（把原始的token改成 [MASK] ）,这些masked的特征最后会计算是每个词语的概率．但是由于mask这个操作只有在预训练过程中使用到，而微调过程不会用到．这可难会造成一些信息表达的误差．为了解决这样的问题，模型也不会总是去mask 15%的token,而是在这15%中，有80%的token会用[MASK]替代，10%的token会用一个随机token替代，10%的token会不变．（这个措施有实验结果证明对后续的微调是有效果提升的）

NSP:
目标一般是ＱＡ会在其他句子对的问题：
其中会有50％的句子是真实的下一句化，50%的句子是语料库中的随机句子．分别被标记为"IsNext"　和 “NotNext”

微调

按照输入要求输入数据即可．

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

wenqiang su CSDN认证博客专家 CSDN认证企业博客

码龄6年

74: 原创

8万+: 周排名

194万+: 总排名

10万+: 访问

: 等级

1229: 积分

12: 粉丝

18: 获赞

9: 评论

118: 收藏

私信

关注

热门文章

分类专栏

English
报错记录 1篇
文献记录 7篇
数据结构 1篇
比赛 4篇
Tensorflow2.0 11篇
前端 2篇
Pytorch 18篇
Paddle 7篇
数据库 2篇
spider 1篇
机器学习 11篇
深度学习 4篇
java 3篇
python 3篇
爬虫 2篇
大数据 3篇
数据分析 1篇
scala

最新评论

pytorch-transformers （BERT）微调
lyn_CS: 直接torch.save(model, PATH)，下次调用时直接model = torch.load(PATH)
pytorch-transformers （BERT）微调
lyn_CS: 你看一下transformers的文档，里面有说到怎么保存和加载模型。训练好的模型保存起来，就可以直接用 # Saving best-practices: if you use defaults names for the model, you can reload it using from_pretrained() if args.do_train and (args.local_rank == -1 or torch.distributed.get_rank() == 0): # Create output directory if needed if not os.path.exists(args.output_dir) and args.local_rank in [-1, 0]: os.makedirs(args.output_dir) logger.info("Saving model checkpoint to %s", args.output_dir) # Save a trained model, configuration and tokenizer using `save_pretrained()`. # They can then be reloaded using `from_pretrained()` model_to_save = model.module if hasattr(model, 'module') else model # Take care of distributed/parallel training model_to_save.save_pretrained(args.output_dir) tokenizer.save_pretrained(args.output_dir) # Good practice: save your training arguments together with the trained model torch.save(args, os.path.join(args.output_dir, 'training_args.bin'))
pytorch-transformers （BERT）微调
书屋里的咸鱼: 请问您知道训练完成后的bert怎么保存以用于其他的下游任务吗？
pytorch学习笔记-入门-定义网络
Tisfy: 深得人心，正如古人云：欲买桂花同载酒，终不是、少年游。
TF2-Wide&Deep-subclass
ctotalk: 感谢分享

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。