论文笔记
筱踏云
什么都不会的nlper
展开
-
《Longformer: The Long-Document Transformer》()论文阅读
前言论文地址:https://arxiv.org/pdf/2004.05150.pdf代码地址:https://github.com/allenai/longformer1、Introduction虽然 self-attention 的效果很好,但是它所需要的内存和算力会随序列呈平方增长。现在的方法大多是将上下文缩短或者划分为较小的序列,以限制这些序列再512的长度内。为了解决这个问题,提出了 Longformer。它包含局部 attention 和全局的 attention。2、Rela原创 2020-09-24 14:46:37 · 491 阅读 · 0 评论 -
《ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators》(ICLR-2020)论文阅读
前言论文地址:https://openreview.net/forum?id=r1xMH1BtvB代码地址:https://github.com/google-research/electraAbstract就跟题目里说的一样,它将目标放在了 Discriminator 上了,换句话说,它跟 GAN 的结构相似,但是判别器是语言模型,然后最终用的也是判别器。1、Introduction像 Bert 这种,使用 mask 的方式来训练,的确能取得很好的效果,但是需要大量的算力,比如每次用 15原创 2020-09-20 15:25:57 · 517 阅读 · 1 评论 -
《MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices》(ACL-2020)论文阅读
前言论文地址:https://arxiv.org/abs/2004.02984代码地址:https://github.com/google-research/google-research/tree/master/mobilebertAbstract提出 MobileBert 来压缩和加速 Bert 模型。1、IntroductionMobileBERT 采用的和 BERT-large 一样深的层数,在每一层中的 transformer 中加入了 bottleneck 机制使得每一层 tra原创 2020-08-07 10:53:40 · 961 阅读 · 0 评论 -
《DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter》(NeurIPS-2019)论文阅读
前言论文地址:https://arxiv.org/abs/1910.01108代码地址:https://github.com/huggingface/transformersAbstract就是蒸馏bert,减少参数,加快速度。1、Introduction基于 Transformer 的与预训练的模型尺寸越来越大:模型越来越大,速度也越来越慢,然后作者提出蒸馏的方法解决该问题。作者在这篇论文中证明了使用预先经过知识蒸馏训练的小得多的语言模型可以在许多下游任务上达到相似的性能,从而使原创 2020-08-04 16:49:29 · 621 阅读 · 0 评论 -
《TinyBERT: Distilling BERT for Natural Language Understanding》(ICLR-2020在审)论文阅读
前言论文地址:https://arxiv.org/abs/1909.10351代码地址:https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/TinyBERTAbstract目的:加快速度,减少内存,同时尽可能保持效果。1、Introduction提出了一种新的 Transformer 蒸馏方法。提出了一个两段式的学习框架,该框架可以在 pre-training 和 fine-tuning 阶段都能使原创 2020-08-03 22:01:12 · 1232 阅读 · 0 评论 -
《FastBERT: a Self-distilling BERT with Adaptive Inference Time》(ACL-2020)论文阅读
前言论文地址:https://arxiv.org/pdf/2004.02178.pdf代码地址:https://github.com/autoliuweijie/FastBERTAbstract目的:提高bert速度,且尽可能减少性能损失该模型在微调时采用了独特的自蒸馏机制(self-distillation ),从而进一步提高了计算效率,而性能损失却最小。1、Introduction提出了一种实用的速度可调BERT模型,即FastBERT,也就是速度可以自己调节,速度越快,效果越差原创 2020-08-02 16:26:59 · 3150 阅读 · 1 评论 -
《AHNG: Representation learning on attributed heterogeneous network(2019-Elsevier)》
AbstractNetwork Embedding 的目的是将节点编码到一个低纬空间中,同时保留网络的 structure 和 properties,大多现有的工作都致力于homogeneous or heterogeneous plain networks。1、IntroductionAHNG 利用两层神经网络来编码各种属性,并保留了 structure and semantic info...原创 2019-11-28 20:54:38 · 2702 阅读 · 0 评论 -
《Coherent Comment Generation for Chinese Articles with a Graph-to-Sequence Model(ACL-2019)》论文阅读
前言论文地址:https://arxiv.org/pdf/1906.01231.pdf代码:https://github.com/lancopku/Graph-to-seq-comment-generationAbstract本文要解决的是通过文章生成评论,对与传统 encoder-decoder 的模型来说,文章通常过长,所以作者提出一个 Graph-to-Sequence 的模型来...原创 2019-10-29 22:11:37 · 2741 阅读 · 12 评论 -
《Graph Convolutional Networks for Text Classification(AAAI-2019)》论文阅读
乱七八糟先写在这作者提出用 GCN 来做文本分类在整个语料集上构建图,将 word 和 document 作为图中的 node,利用 co-occurrence 信息来构建 edge,然后将文本分类问题看作是 node 分类问题。Introduction本文是解决分类任务的,作者通过词与文章的共现信息和 TF-IDF 权重和互信息权重两个贡献点:提出了使用图神经网络来解决文本分类...原创 2019-10-28 20:10:33 · 3046 阅读 · 0 评论