先贴链接,后续有时间整理....
参考链接:
https://blog.csdn.net/jiaowoshouzi/article/details/89073944 BERT原理,说的很清楚,直接往后看
attention https://zhuanlan.zhihu.com/p/43493999
https://zhuanlan.zhihu.com/p/27769667 attention 代码
https://www.zhihu.com/question/68482809 attention 原理
https://zhuanlan.zhihu.com/p/31547842 √
https://zhuanlan.zhihu.com/p/53682800 attention +transformer
BERT bert 发展史 https://blog.csdn.net/jiaowoshouzi/article/details/89073944
https://www.cnblogs.com/huangyc/p/9898852.html bert 原理 https://blog.csdn.net/u012526436/article/details/87637150
https://www.jianshu.com/p/63943ffe2bab Bert需要理解的一些内容
http://blog.itpub.net/69942346/viewspace-2658642/ BERT 预训练模型演进过程
attention: https://zhuanlan.zhihu.com/p/150294471 https://www.zhihu.com/question/68482809 https://blog.csdn.net/guofei_fly/article/details/105516732
soft attention、hard attention、 local attention结构
BERT_MRC https://blog.csdn.net/eagleuniversityeye/article/details/109601547
损失函数
BERT 官方代码中的分类模型的损失函数叫做负对数似然函数(且是最小化,等价于最大化对数似然函数),数学表达式是:
至于为何要定义这样的损失函数,则是因为在实际使用中,常用逻辑回归模型去解决分类问题,当逻辑回归撞上平方损失,损失函数关于参数非凸。所以,不是分类问题中不使用平方损失,而是逻辑回归不使用平方损失。而代码中的 log_probs 使用了对数,故而不使用平方损失,而使用负对数似然损失函数 参考link
模型有两个 loss,一个是 Masked Language Model,另一个是 Next Sentence Prediction