2020年10月_爱编程真是太好了

10月 06月

原创 Transformer-XL全解读

MotivationTransformer最大的问题在于没有办法建模超过最大长度的序列，例如base bert其支持的序列最大长度是512，超过了该长度的序列需要进行截取，再把截取后的片段分别用bert进行编码，该方法虽然可行，但是存在上下文碎片化的问题，也就是说每个片段是单独建模的，互相之间没有上下文信息，并且，不同的片段位置编码都是从0开始，明显是有问题的。可见Transformer对于较长的序列建模能力有限，如何解决该弊端就该Transformer-XL大显身手了。Transformer-XL

2020-10-21 10:08:44 7005 4

原创后Transformer时代

前言Transformer(下文用Tm代替)引领了预训练模型的潮流，创造了NLP中的无数SOTA。Tm从RNN的串行结构进化成了并行结构，但是因为其高复杂度的模型结构，时间复杂度达到了O(n2)O(n^2)O(n2)，那么Tm能否把时间复杂度降低的同时效果也能保留呢？目前大部分的预训练语言模型base版本，其支持的文本最大长度仅有512，如果想让其支持更长的序列，对于显存的要求也是极高的，对于过长的序列，Tm又该怎么处理呢？也因这两个问题的存在，这两年提出了很多优秀的Tm改版，本文会为读者介绍分享这些新

2020-10-16 17:30:33 421

原创概率论题目

1、从一副52张扑克牌中随机抽两张，颜色相等的概率2C262C522\frac{2 C_{26}^2}{C_{52}^2}C5222C2622、54张牌，分成6份，每份9张牌，大小王在一起的概率C61C527C549\frac{C_{6}^1C_{52}^7}{C_{54}^9}C549C61C5273、52张牌去掉大小王，分成26*2两堆，从其中一堆取4张牌为4个a的概率2C4822C5226\frac{2 C_{48}^{22}}{C_{52}^{26}}C52262C4822

2020-10-15 17:39:08 22417 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Transformer-XL全解读

原创 后Transformer时代

原创 概率论题目

空空如也

空空如也

原创后Transformer时代

原创概率论题目