bert资料汇总

论文阅读

bert是google提出的一种基于transformer的深度语言模型,其最大的特点一是使用transformer作为特征提取器,替换了之前的RNN;二是双向编码的深度模型。了解该模型最直接的方式就是阅读论文原文:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

模型解析

bert模型是一种基于transformer多层堆砌的深度语言模型,其深度可以达到L = 24 层。相较于之前深度模型GPT和EMLo,bert的创新一方面是使用transformer作为特征提取器,另一方面是实现了真正的双向编码。但是bert最大的创新点在于它的预训练,为了使模型适用于token-level的任务,bert采用了Masked LM作为一个预训练任务,另外,为了使模型适用于sentence-level的任务,bert同时采用了下一句子预测作为一个预训练任务。关于模型的详细介绍可以参考文献:NLP必读:十分钟读懂谷歌BERT模型【NLP】Google BERT详解

模型实战

bert模型采用一种预训练+微调的方式训练模型,使用非常方便,对于大部分任务而言,使用预训练的模型,在bert最后的隐藏层的输出上加上一层网络层,然后使用自己的数据集微调模型参数就可以达到非常不错的效果。使用bert做文本分类任务的可以参考相关文献:BERT使用详解(实战)

源码阅读

bert源码中比较重要的两个脚本文件是modeling.py和run_classifier.py,其中文件modeling.py定义了BertModel,基于transformer的模型架构在这个文件实现,而文件run_classifier.py定义了基于bert模型的输出构建自己数据上微调模型的一些方法。可以参考文献一行行阅读源码:BERT系列(一)——BERT源码分析及使用方法BERT实战(源码分析+踩坑)

参考文献:

  1. https://arxiv.org/pdf/1810.04805.pdf
  2. https://zhuanlan.zhihu.com/p/51413773
  3. https://zhuanlan.zhihu.com/p/46652512
  4. https://www.jianshu.com/p/bfd0148b292e
  5. https://zhuanlan.zhihu.com/p/82131880
  6. https://zhuanlan.zhihu.com/p/58471554
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值