Transformer
文章平均质量分 68
爱编程真是太好了
这个作者很懒,什么都没留下…
展开
-
Hydra Attention 真的快197倍吗
15号Meta发了篇新paper取名hydra attention,各大媒体宣称hydra比vanilla快了197倍,事实真是如此吗,答案是:No,实际上hydra attention的快依赖于你处理的序列长度,该paper的作者主要是在cv上做的测试,对于384px的图片,如果是12层的attention那么FLOPs能减少11%,224px的图片,12层attention的FLOPs减少4%。原创 2022-09-27 11:50:09 · 1429 阅读 · 2 评论 -
稳定提点的Mixup
前言俗话说想训练好一个模型,3分靠模型,7分靠数据,然而真实情况往往是缺少数据,高额的标注成本、极为常见的长尾问题都限制了模型的效果。因此数据增强在AI领域基本上是必不可少,在CV中有图片的旋转、裁剪偏移等等,但是在nlp领域中想做好数据增强就有一点麻烦了,一些采样的方法例如smote在深度学习领域更是基本没啥效果。那么有没有什么好的方法,能在各种不同的领域都能做到数据增强并且稳定提升效果呢?MixupMixup是近几年提出来的一种新的数据增强的方法,它的核心思想是采用线性插值的方式从训练集生成新的数原创 2021-12-29 11:32:21 · 3495 阅读 · 1 评论 -
Transformer-XL全解读
MotivationTransformer最大的问题在于没有办法建模超过最大长度的序列,例如base bert其支持的序列最大长度是512,超过了该长度的序列需要进行截取,再把截取后的片段分别用bert进行编码,该方法虽然可行,但是存在上下文碎片化的问题,也就是说每个片段是单独建模的,互相之间没有上下文信息,并且,不同的片段位置编码都是从0开始,明显是有问题的。可见Transformer对于较长的序列建模能力有限,如何解决该弊端就该Transformer-XL大显身手了。Transformer-XL原创 2020-10-21 10:08:44 · 6490 阅读 · 4 评论 -
后Transformer时代
前言Transformer(下文用Tm代替)引领了预训练模型的潮流,创造了NLP中的无数SOTA。Tm从RNN的串行结构进化成了并行结构,但是因为其高复杂度的模型结构,时间复杂度达到了O(n2)O(n^2)O(n2),那么Tm能否把时间复杂度降低的同时效果也能保留呢?目前大部分的预训练语言模型base版本,其支持的文本最大长度仅有512,如果想让其支持更长的序列,对于显存的要求也是极高的,对于过长的序列,Tm又该怎么处理呢?也因这两个问题的存在,这两年提出了很多优秀的Tm改版,本文会为读者介绍分享这些新原创 2020-10-16 17:30:33 · 386 阅读 · 0 评论