今天看到了一个讲解transformer源码的(基于pytorch),颇为详细
https://zhuanlan.zhihu.com/p/375221936
关于attention,可参考
https://spaces.ac.cn/archives/4765/comment-page-1
关于bert三个embedding层,颇为详细!讲的很清楚
https://www.cnblogs.com/d0main/p/10447853.html
今天看到了一个讲解transformer源码的(基于pytorch),颇为详细
https://zhuanlan.zhihu.com/p/375221936
关于attention,可参考
https://spaces.ac.cn/archives/4765/comment-page-1
关于bert三个embedding层,颇为详细!讲的很清楚
https://www.cnblogs.com/d0main/p/10447853.html