Nitrogen_pump-CSDN博客

原创 BERT代码实现

前段时间实现了transformer，用李沐老师的话来讲其实bert可以简单理解为缩水版的transformer，transformer有encoder和decoder，bert去掉了decoder，改为用N个encoder堆叠在一起，拿最后一个encoder的输出直接做预训练任务。老规矩，先把大体框架列出来，然后根据框架一个一个去实现。架构Bert的架构很简单，包括词向量输入，encoder层，NSP（下一句预测任务）和MLM（掩码词预测任务），如下图其中，bert的embeddin.

2022-03-07 21:44:36 2222

原创 Attention Is All You Need，Transformer代码实现

这篇论文很早就读过，当时只是简单了解了下其原理，但真正动手实现时还是能发现不少不能忽略的细节问题，这里不说明原理（原理都在文献上），只注重实现。架构上图便是Transformer的架构，可以看到，它可以分为三个部分，encoder，decoder和Linear projection。encoder又可以分为三个部分：词向量编码，位置编码，多头注意力层和前馈神经网络层（这里做一个部分）。decoder相比encoder多了一个Masked的注意力层，其余和encoder的结构一样。如下图所示.

2022-02-25 14:02:18 1378

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人