- 博客(3)
- 收藏
- 关注
原创 Transformer-XL全解读
MotivationTransformer最大的问题在于没有办法建模超过最大长度的序列,例如base bert其支持的序列最大长度是512,超过了该长度的序列需要进行截取,再把截取后的片段分别用bert进行编码,该方法虽然可行,但是存在上下文碎片化的问题,也就是说每个片段是单独建模的,互相之间没有上下文信息,并且,不同的片段位置编码都是从0开始,明显是有问题的。可见Transformer对于较长的序列建模能力有限,如何解决该弊端就该Transformer-XL大显身手了。Transformer-XL
2020-10-21 10:08:44 7005 4
原创 后Transformer时代
前言Transformer(下文用Tm代替)引领了预训练模型的潮流,创造了NLP中的无数SOTA。Tm从RNN的串行结构进化成了并行结构,但是因为其高复杂度的模型结构,时间复杂度达到了O(n2)O(n^2)O(n2),那么Tm能否把时间复杂度降低的同时效果也能保留呢?目前大部分的预训练语言模型base版本,其支持的文本最大长度仅有512,如果想让其支持更长的序列,对于显存的要求也是极高的,对于过长的序列,Tm又该怎么处理呢?也因这两个问题的存在,这两年提出了很多优秀的Tm改版,本文会为读者介绍分享这些新
2020-10-16 17:30:33 421
原创 概率论题目
1、从一副52张扑克牌中随机抽两张,颜色相等的概率2C262C522\frac{2 C_{26}^2}{C_{52}^2}C5222C2622、54张牌,分成6份,每份9张牌,大小王在一起的概率C61C527C549\frac{C_{6}^1C_{52}^7}{C_{54}^9}C549C61C5273、52张牌去掉大小王,分成26*2两堆,从其中一堆取4张牌为4个a的概率2C4822C5226\frac{2 C_{48}^{22}}{C_{52}^{26}}C52262C4822
2020-10-15 17:39:08 22417 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人