QKV从何而来?√
Self-Attention如何考虑整个Sequence的资讯?√
学习最忌讳东学一点西学一点。要把一个算法彻底搞通。
一文详解Softmax函数 - 知乎 这里的交叉熵是用来干啥的?√
深度学习attention机制中的Q,K,V分别是从哪来的? - 知乎√
待复现1 Transformer解读(论文 + PyTorch源码)_pytorch的transformer论文-CSDN博客
额还是不学pytorch了 学tensorflow吧
【从官方案例学框架Tensorflow/Keras】搭建Transformer模型解决文本分类问题_基于 tensorflow keras 搭建 transformer模型实现-CSDN博客
复现2(50%)
然后https://zhuanlan.zhihu.com/p/537755735去找方法(不一定看,毕竟都发在知乎上了,我能想到的别人肯定想到了,反正就存一下吧)