bert模型主要关注这几个点:
1.预训练任务masked lm
2.预训练任务Next Sentence Prediction (NSP)
3.bert模型使用的激活函数是GELU(Gaussian Error Linear Unit)
函数图像如下:
想要弄懂原理看下面得博客
https://helloai.blog.csdn.net/article/details/120211601
想要弄懂bert模型实战 看下面得博客
【实战篇】是时候彻底弄懂BERT模型了(收藏)_bert-base-uncased_愤怒的可乐的博客-CSDN博客
bert模型得预训练已经有很多种了,大家可以直接复用就行,可以自己去实现下网络结构。
剩下可以再看看这两篇
安全验证 - 知乎知乎,中文互联网高质量的问答社区和创作者聚集的原创内容平台,于 2011 年 1 月正式上线,以「让人们更好的分享知识、经验和见解,找到自己的解答」为品牌使命。知乎凭借认真、专业、友善的社区氛围、独特的产品机制以及结构化和易获得的优质内容,聚集了中文互联网科技、商业、影视、时尚、文化等领域最具创造力的人群,已成为综合性、全品类、在诸多领域具有关键影响力的知识分享社区和创作者聚集的原创内容平台,建立起了以社区驱动的内容变现商业模式。https://zhuanlan.zhihu.com/p/46652512安全验证 - 知乎知乎,中文互联网高质量的问答社区和创作者聚集的原创内容平台,于 2011 年 1 月正式上线,以「让人们更好的分享知识、经验和见解,找到自己的解答」为品牌使命。知乎凭借认真、专业、友善的社区氛围、独特的产品机制以及结构化和易获得的优质内容,聚集了中文互联网科技、商业、影视、时尚、文化等领域最具创造力的人群,已成为综合性、全品类、在诸多领域具有关键影响力的知识分享社区和创作者聚集的原创内容平台,建立起了以社区驱动的内容变现商业模式。https://zhuanlan.zhihu.com/p/150681502这个博客里面还提到了为啥BN在nlp任务中不好用。
还出现了bert模型应用于推荐领域
bert预训练源码地址和大致解读
GitHub - google-research/bert: TensorFlow code and pre-trained models for BERT
重点可以看下run_pretraining.py
预训练源码的大致解读: