Nitrogen_pump
码龄6年
关注
提问 私信
  • 博客:3,691
    3,691
    总访问量
  • 2
    原创
  • 1,883,853
    排名
  • 1
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2019-07-02
博客简介:

shazam886的博客

查看详细资料
个人成就
  • 获得3次点赞
  • 内容获得0次评论
  • 获得28次收藏
创作历程
  • 2篇
    2022年
成就勋章
兴趣领域 设置
  • Python
    python
  • 数据结构与算法
    算法
  • 人工智能
    深度学习神经网络自然语言处理word2vecrnnlstmpytorch语言模型transformerbertnlp
  • 服务器
    linux
创作活动更多

仓颉编程语言体验有奖征文

仓颉编程语言官网已上线,提供版本下载、在线运行、文档体验等功能。为鼓励更多开发者探索仓颉编程语言,现诚邀各位开发者通过官网在线体验/下载使用,参与仓颉体验有奖征文活动。

368人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

BERT代码实现

前段时间实现了transformer,用李沐老师的话来讲其实bert可以简单理解为缩水版的transformer,transformer有encoder和decoder,bert去掉了decoder,改为用N个encoder堆叠在一起,拿最后一个encoder的输出直接做预训练任务。老规矩,先把大体框架列出来,然后根据框架一个一个去实现。架构Bert的架构很简单,包括词向量输入,encoder层,NSP(下一句预测任务)和MLM(掩码词预测任务),如下图其中,bert的embeddin.
原创
发布博客 2022.03.07 ·
2264 阅读 ·
1 点赞 ·
0 评论 ·
18 收藏

Attention Is All You Need,Transformer代码实现

这篇论文很早就读过,当时只是简单了解了下其原理,但真正动手实现时还是能发现不少不能忽略的细节问题,这里不说明原理(原理都在文献上),只注重实现。架构上图便是Transformer的架构,可以看到,它可以分为三个部分,encoder,decoder和Linear projection。encoder又可以分为三个部分:词向量编码,位置编码,多头注意力层和前馈神经网络层(这里做一个部分)。decoder相比encoder多了一个Masked的注意力层,其余和encoder的结构一样。如下图所示.
原创
发布博客 2022.02.25 ·
1426 阅读 ·
2 点赞 ·
0 评论 ·
11 收藏