自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 BERT代码实现

前段时间实现了transformer,用李沐老师的话来讲其实bert可以简单理解为缩水版的transformer,transformer有encoder和decoder,bert去掉了decoder,改为用N个encoder堆叠在一起,拿最后一个encoder的输出直接做预训练任务。老规矩,先把大体框架列出来,然后根据框架一个一个去实现。架构Bert的架构很简单,包括词向量输入,encoder层,NSP(下一句预测任务)和MLM(掩码词预测任务),如下图其中,bert的embeddin.

2022-03-07 21:44:36 2222

原创 Attention Is All You Need,Transformer代码实现

这篇论文很早就读过,当时只是简单了解了下其原理,但真正动手实现时还是能发现不少不能忽略的细节问题,这里不说明原理(原理都在文献上),只注重实现。架构上图便是Transformer的架构,可以看到,它可以分为三个部分,encoder,decoder和Linear projection。encoder又可以分为三个部分:词向量编码,位置编码,多头注意力层和前馈神经网络层(这里做一个部分)。decoder相比encoder多了一个Masked的注意力层,其余和encoder的结构一样。如下图所示.

2022-02-25 14:02:18 1378

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除