Transformer 与BERT模型

本文介绍了Transformer模型,强调了其self-attention机制在捕获长距离依赖信息方面的优势,并详细阐述了Transformer的框架原理。同时,文章探讨了BERT模型,它是基于双向Transformer的预训练语言模型,广泛应用于各种NLP任务。
摘要由CSDN通过智能技术生成


Task 10

  1. Transformer的原理。
  2. BERT的原理。
  3. 利用预训练的BERT模型将句子转换为句向量,进行文本分类。

参考:

transformer github实现:https://github.com/Kyubyong/transformer

transformer pytorch分步实现:http://nlp.seas.harvard.edu/2018/04/03/attention.html

搞懂Transformer结构,看这篇PyTorch实现就够了:https://www.tinymind.cn/articles/3834

“变形金刚”为何强大:从模型到代码全面解析Google Tensor2Tensor系统:https://segmentfault.com/a/1190000015575985

bert理论:
bert系列1: https://medium.com/dissecting-bert/dissecting-be…​
bert系列2: https://medium.com/dissecting-bert/dissecting-be…​
bert系列3: https://medium.com/dissecting-bert/dissecting-be…​
5 分钟入门 Google 最强NLP模型:BERT:https://www.jianshu.com/p/d110d0c13063

BERT – State of the Art Language Model for NLP: BERT – State of the Art Language Model for NLP htt

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值