长文本
文章平均质量分 73
rucieryi369
这个作者很懒,什么都没留下…
展开
-
longformer长文本处理
链接:https://arxiv.org/pdf/2004.05150.pdfgithub:https://github.com/allenai/longformerAbstract由于自注意力机制,Transformer模型不能很好地处理长文本;为了处理这个问题,本文提出了Longformer,它的注意力机制是将局部注意力和任务驱动的全局注意力进行了结合。IntroductionTransformers已经在NLP任务上取得了很好地进展,它的成功主要得益于自注意力能够捕获上下文的信息。原创 2022-05-18 15:39:52 · 928 阅读 · 0 评论 -
ERNIE-DOC: A Retrospective Long-Document Modeling Transformer
链接:https://arxiv.org/abs/2012.15688github:https://github.com/PaddlePaddle/ERNIE/tree/repro/ernie-docAbstractTransformers由于内存和时间的二次增长,从而不适用于长文本。简单的长文本截断或者稀疏自注意力机制将会导致其他的问题。ERNIE-DOC是基于Recurrence Transformers的长文本的预训练模型。其中主要的设计技术是:retrospective feed mec原创 2022-05-09 09:00:00 · 508 阅读 · 0 评论 -
CogLTX: Applying BERT to Long Texts
链接:http://keg.cs.tsinghua.edu.cn/jietang/publications/NIPS20-Ding-et-al-CogLTX.pdfgithub:https://github.com/Sleepychord/CogLTXAbstract由于bert内存呈现二次增长和时间消耗,使得不能很好的处理长文本;一种自然的方式是对transformer进行操作,如对文本进行滑窗,attention的稀疏化处理(随机,固定窗口,二者结合)等。从人类理解长文本的角度出发,主要分为原创 2022-05-07 16:02:22 · 278 阅读 · 0 评论