- 博客(2)
- 收藏
- 关注
原创 BERT代码实现
前段时间实现了transformer,用李沐老师的话来讲其实bert可以简单理解为缩水版的transformer,transformer有encoder和decoder,bert去掉了decoder,改为用N个encoder堆叠在一起,拿最后一个encoder的输出直接做预训练任务。老规矩,先把大体框架列出来,然后根据框架一个一个去实现。架构Bert的架构很简单,包括词向量输入,encoder层,NSP(下一句预测任务)和MLM(掩码词预测任务),如下图其中,bert的embeddin.
2022-03-07 21:44:36 2222
原创 Attention Is All You Need,Transformer代码实现
这篇论文很早就读过,当时只是简单了解了下其原理,但真正动手实现时还是能发现不少不能忽略的细节问题,这里不说明原理(原理都在文献上),只注重实现。架构上图便是Transformer的架构,可以看到,它可以分为三个部分,encoder,decoder和Linear projection。encoder又可以分为三个部分:词向量编码,位置编码,多头注意力层和前馈神经网络层(这里做一个部分)。decoder相比encoder多了一个Masked的注意力层,其余和encoder的结构一样。如下图所示.
2022-02-25 14:02:18 1378
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人