自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 Transformer-XL全解读

MotivationTransformer最大的问题在于没有办法建模超过最大长度的序列,例如base bert其支持的序列最大长度是512,超过了该长度的序列需要进行截取,再把截取后的片段分别用bert进行编码,该方法虽然可行,但是存在上下文碎片化的问题,也就是说每个片段是单独建模的,互相之间没有上下文信息,并且,不同的片段位置编码都是从0开始,明显是有问题的。可见Transformer对于较长的序列建模能力有限,如何解决该弊端就该Transformer-XL大显身手了。Transformer-XL

2020-10-21 10:08:44 7005 4

原创 后Transformer时代

前言Transformer(下文用Tm代替)引领了预训练模型的潮流,创造了NLP中的无数SOTA。Tm从RNN的串行结构进化成了并行结构,但是因为其高复杂度的模型结构,时间复杂度达到了O(n2)O(n^2)O(n2),那么Tm能否把时间复杂度降低的同时效果也能保留呢?目前大部分的预训练语言模型base版本,其支持的文本最大长度仅有512,如果想让其支持更长的序列,对于显存的要求也是极高的,对于过长的序列,Tm又该怎么处理呢?也因这两个问题的存在,这两年提出了很多优秀的Tm改版,本文会为读者介绍分享这些新

2020-10-16 17:30:33 421

原创 概率论题目

1、从一副52张扑克牌中随机抽两张,颜色相等的概率2C262C522\frac{2 C_{26}^2}{C_{52}^2}C522​2C262​​2、54张牌,分成6份,每份9张牌,大小王在一起的概率C61C527C549\frac{C_{6}^1C_{52}^7}{C_{54}^9}C549​C61​C527​​3、52张牌去掉大小王,分成26*2两堆,从其中一堆取4张牌为4个a的概率2C4822C5226\frac{2 C_{48}^{22}}{C_{52}^{26}}C5226​2C4822

2020-10-15 17:39:08 22417 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除