![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文阅读
文章平均质量分 85
qq_38317254
这个作者很懒,什么都没留下…
展开
-
Longformer: The Long-Document Transformer
与reformer都是解决长序列问题:Longformer在两个字符级语言建模任务上都取得了SOTA的效果。并且作者用Longformer的attention方法继续预训练RoBERTa,训练得到的语言模型在多个长文档任务上进行fine-tune后,性能全面超越RoBERTa由于self-attention机制,无法处理长序列,用reformer里面的例子就是:计算量与句子长度的平方成正比,比如64K个token的句子,经过self-attention之后用float32存储需要16GB。提出:原创 2021-06-19 09:12:49 · 349 阅读 · 0 评论 -
ELECTRA: Pre-training Text Encoders as Discriminators rather than Generators
ELECTRA(Efficiently Learning an Encoder that Classifies Token Replacements Accurately): 将文本编码器预训练为判别器而不是生成器Bert的MLM(Masked language modeling),通过用[MASK]替换输入token文本,然后训练一个模型来重建原始的token,在下游任务中表现的非常好,但是需要大量的计算。于是ELECTRA提出:replaced token detection。并不通过[MASK原创 2021-06-15 21:39:39 · 427 阅读 · 1 评论 -
OpenAI GPT
1.OpenAI GPTOpenAI 在论文《Improving Language Understanding by Generative Pre-Training》中提出了 GPT 模型,后面又在论文《Language Models are Unsupervised Multitask Learners》提出了 GPT2 模型。GPT2 与 GPT 的模型结构差别不大,但是采用了更大的数据集进行实验。GPT采用的训练方法分为两步,第一步利用没有标签的文本数据集训练语言模型,第二步更加具体的下游任务原创 2021-03-18 20:51:28 · 680 阅读 · 0 评论 -
TASS 2019: Data Augmentation and Robust Embeddings for Sentiment Analysis
abstract主要任务是在西班牙tweet中进行情感分类,主要使用到bags-of-words,bag-of-characters和tweet embedding。尤其是训练了单词前缀embedding(subword-aware word embedding)的鲁棒性和使用权重均衡策略(weighted-averageing strategy)计算了tweet的表示法。使用两种数据增强技术来处理数据稀缺性问题。双向交叉增强(two-way-translation)和实例交叉增强(instance原创 2021-04-05 10:34:06 · 182 阅读 · 0 评论 -
TASS 2020: TWilBERT for Sentiment Analysis and Emotion Detection in Spanish Tweets
Abstract使用Bert在西班牙语tweet中进行情感分类,双向BertIntroduction使用模型bert,基于对西班牙语tweet的Bert模型的预训练适应性的微调。介绍本文结构,第二节介绍解决了的任务,第三节提出了一些设想,和baseline model。第四节,对实验进行评估评价和实验的结果进行分析,最后第5节显示了一些结论和未来的工作。对数据集进行分析In Table 2 the tweet distribution for each emotion in th原创 2021-04-05 15:13:30 · 120 阅读 · 0 评论 -
FACT2020: Factuality Identification in Spanish Text
Abstract提出了Factuality Analysis and Classification Task(FACT),对于任务一的分类任务,效果最好的是采用RNN的方法,采用的是训练有关事件单词及其附近的嵌入数据,对于任务二,采用简单的建模方法。Introduction介绍Factuality Classification1.Task1 description把一个事件分成三类,确定的事件发生,确定的事件不发生,和不确定的事件。训练一个分类器来预测给定文本中事件的类别。数据处原创 2021-04-05 16:53:04 · 92 阅读 · 0 评论 -
Combining Linguistic Features and Machine-learning Models for Sentiment Classification
Abstract本文描述了参加TASS 2020情绪分析研讨会的情况,提出了两个策略根据几种西班牙语tweet的情感分类 对6种基本情感进行细粒度的分类提出基于单独的语言特征或者结合word-embedding。尝试了CNN和SVM,虽然没有达到最好的成绩,但是获得了task2的最高的精确率。以及一些具有竞争性的结果(competitive results)。虽然结果一般但是还是有实质性的好处,比如结果的可解释性。Introduction情感分析是自然语言处理的一项任务,包括对自然语言文原创 2021-04-06 20:41:15 · 242 阅读 · 0 评论 -
Universal Language Model Fine-tuning for Text Classification
abstract提出了一种迁移学习方法(transfer learning model)能运用于所有NLP任务的通用语言微调模型(Universal Language Model Fine-tuning(ULMFiT))。1.Universal Language Model Fine-tuning1.1 判别微调(discriminative fine-tuning)由于不同的层捕获不同类型的信息,所以因进行不同程度的微调,与在所有层使用相同的学习率不同,discriminative fin原创 2021-06-03 17:02:16 · 236 阅读 · 0 评论 -
Knowledge Distillation
1.Distilling the Knowledge in a Neural Network将复杂模型的泛化能力转移到小模型的一个方法是:将复杂模型产生的类概率(class probabilities)作为"soft targets"来训练小模型。从网上找了几种解释:通常我们认为模型从训练中得到的知识就是神经网络的参数,更确切的说是从输入向量到输出向量的映射。所以我们训练小模型的目标就是学习到大模型输入到输出的映射关系。从复杂网络(teacher net)中抽取训练数据的分布"教给"简单网.原创 2021-06-06 15:25:54 · 507 阅读 · 0 评论 -
ALBERT: A Lite Bert for Self-Supervised Learning of Language Representations
ALBERT: A Lite Bert for Self-Supervised Learning of Language Representationsabstract:提出两种参数减少技术来降低内存的消耗和加快BERT的训练速度,使用了一个self-supervised loss计算句子之间的一致性。两种参数减少技术:factorized embedding parameterization把大的词嵌入矩阵分解成两个小矩阵,...原创 2021-06-12 11:21:06 · 398 阅读 · 0 评论 -
Subword算法:BPE,WordPiece,ULM
本文基本转载于深入理解NLP Subword算法:BPE、WordPiece、ULMbpe分词子词技巧:The Tricks of Subword1. 传统的空格分隔的tokenization技术对比传统词表示方法无法很好的处理未知或罕见的词汇(OOV, out-of-vocabulary:不在词库) 传统的tokenization方法不利于模型学习词缀之间的关系:E.g. 模型学到的“old”, “older”, and “oldest”之间的关系无法泛化到“smart”, “sma原创 2021-06-10 16:35:21 · 727 阅读 · 0 评论 -
BERT笔记
**BERT**BERT全称为Bidirectional Encoder Representation from Transformer 是 Google 以无监督的方式利用大量无标注文本「炼成」的语言模型,其架构为 Transformer 中的 Encoder(BERT=Encoder of Transformer)一.BERT两个任务1.漏字填空(Cloze task) Masked Language Model在 BERT 中,Masked LM(Masked Language Model转载 2021-03-16 21:49:06 · 496 阅读 · 0 评论 -
Universal Language Model Fine-tuning for Text Classification
Abstract迁移学习在CV方向上产生了重大的影响,而在NLP领域对于特定的任务还需要从头开始训练。于是提出了基于微调的通用语言模型,能够有效的运用于NLP的任务,介绍了基于微调的语言模型的关键技术。在6个文本分类任务中取得了state-of-the-art的结果,并在主要的数据集上减少了18%-24%的错误。Introduction文本分类是一类具有实际应用程序的自然语言处理(NLP)任务。鉴于预训练模型的好处和迁移学习在NLP运用的不成功,提出了基于微调的语言模型,但是需要数百万的文档来实原创 2021-04-08 21:46:20 · 211 阅读 · 0 评论