自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 Longformer: The Long-Document Transformer

与reformer都是解决长序列问题:Longformer在两个字符级语言建模任务上都取得了SOTA的效果。并且作者用Longformer的attention方法继续预训练RoBERTa,训练得到的语言模型在多个长文档任务上进行fine-tune后,性能全面超越RoBERTa由于self-attention机制,无法处理长序列,用reformer里面的例子就是:计算量与句子长度的平方成正比,比如64K个token的句子,经过self-attention之后用float32存储需要16GB。提出:

2021-06-19 09:12:49 345

原创 ELECTRA: Pre-training Text Encoders as Discriminators rather than Generators

ELECTRA(Efficiently Learning an Encoder that Classifies Token Replacements Accurately): 将文本编码器预训练为判别器而不是生成器Bert的MLM(Masked language modeling),通过用[MASK]替换输入token文本,然后训练一个模型来重建原始的token,在下游任务中表现的非常好,但是需要大量的计算。于是ELECTRA提出:replaced token detection。并不通过[MASK

2021-06-15 21:39:39 424 1

原创 ALBERT: A Lite Bert for Self-Supervised Learning of Language Representations

ALBERT: A Lite Bert for Self-Supervised Learning of Language Representationsabstract:提出两种参数减少技术来降低内存的消耗和加快BERT的训练速度,使用了一个self-supervised loss计算句子之间的一致性。两种参数减少技术:factorized embedding parameterization把大的词嵌入矩阵分解成两个小矩阵,...

2021-06-12 11:21:06 394

原创 Subword算法:BPE,WordPiece,ULM

本文基本转载于深入理解NLP Subword算法:BPE、WordPiece、ULMbpe分词子词技巧:The Tricks of Subword1. 传统的空格分隔的tokenization技术对比传统词表示方法无法很好的处理未知或罕见的词汇(OOV, out-of-vocabulary:不在词库) 传统的tokenization方法不利于模型学习词缀之间的关系:E.g. 模型学到的“old”, “older”, and “oldest”之间的关系无法泛化到“smart”, “sma

2021-06-10 16:35:21 702

原创 NLP文本表示总结

1. Word2VecWord2Vec:词到向量,是word embedding(词嵌入)的一种。只有把词(抽象,符号)转到向量(数值),计算机才能明白。语义相同的词的词向量接近。1.1 语言模型如果用一个词语作为输入,来预测他上下文的词汇,这个模型就叫做Skip-gram模型。如果用一个词语的上下文来作为输入,来预测这个词语本身,这就是CBOW模型。用当前词x预测它的下一个词y这里的x的原始输入只能是数值类型,显然是one-hot encoder,通过输入one-hot格.

2021-06-09 16:49:58 897

原创 Knowledge Distillation

1.Distilling the Knowledge in a Neural Network将复杂模型的泛化能力转移到小模型的一个方法是:将复杂模型产生的类概率(class probabilities)作为"soft targets"来训练小模型。从网上找了几种解释:通常我们认为模型从训练中得到的知识就是神经网络的参数,更确切的说是从输入向量到输出向量的映射。所以我们训练小模型的目标就是学习到大模型输入到输出的映射关系。从复杂网络(teacher net)中抽取训练数据的分布"教给"简单网.

2021-06-06 15:25:54 502

原创 Universal Language Model Fine-tuning for Text Classification

abstract提出了一种迁移学习方法(transfer learning model)能运用于所有NLP任务的通用语言微调模型(Universal Language Model Fine-tuning(ULMFiT))。1.Universal Language Model Fine-tuning1.1 判别微调(discriminative fine-tuning)由于不同的层捕获不同类型的信息,所以因进行不同程度的微调,与在所有层使用相同的学习率不同,discriminative fin

2021-06-03 17:02:16 236

原创 python:杨辉三角形

直接上代码#n = 7n = int(input())for i in range(n): list = [] for j in range(i+1): if j == 0 or j == i: list.append(1) print(1,end=" ") else: list.append(a[j]+a[j-1]) print(a[j]+a[j-1

2021-04-16 10:35:38 93

转载 浅谈NLP 文本分类/情感分析 任务中的文本预处理工作

转载自仅供学习参考NLP相关的文本预处理NLP文本预处理一直是一个很受关注的问题,当下最常用的文本预处理工具当属nltk,功能统一,api也很简单,安装的话直接输入:pip install nltkpython#进入pythonimport nltknltk.download()#下载需要的内容一般来讲,最简单最常见的预处理就是把一整段文本分词化(Tokenize),对于一段文本(Sentence),可以直接调用nltk库功能将其分词化,返回结果为一个词表(word list)。

2021-04-09 15:47:21 308

原创 Universal Language Model Fine-tuning for Text Classification

Abstract迁移学习在CV方向上产生了重大的影响,而在NLP领域对于特定的任务还需要从头开始训练。于是提出了基于微调的通用语言模型,能够有效的运用于NLP的任务,介绍了基于微调的语言模型的关键技术。在6个文本分类任务中取得了state-of-the-art的结果,并在主要的数据集上减少了18%-24%的错误。Introduction文本分类是一类具有实际应用程序的自然语言处理(NLP)任务。鉴于预训练模型的好处和迁移学习在NLP运用的不成功,提出了基于微调的语言模型,但是需要数百万的文档来实

2021-04-08 21:46:20 207

原创 Combining Linguistic Features and Machine-learning Models for Sentiment Classification

Abstract本文描述了参加TASS 2020情绪分析研讨会的情况,提出了两个策略根据几种西班牙语tweet的情感分类 对6种基本情感进行细粒度的分类提出基于单独的语言特征或者结合word-embedding。尝试了CNN和SVM,虽然没有达到最好的成绩,但是获得了task2的最高的精确率。以及一些具有竞争性的结果(competitive results)。虽然结果一般但是还是有实质性的好处,比如结果的可解释性。Introduction情感分析是自然语言处理的一项任务,包括对自然语言文

2021-04-06 20:41:15 241

原创 Sentiment Analysis at SEPLN (TASS)-2019: Sentiment Analysis at Tweet Level Using Deep Learning

Abstract本文描述了Sentiment Analysis at SEPLN (TASS)-2019这个任务的系统,这个任务包括对西班牙语tweet进行情感分析,这些tweet包含了使用不同西班牙语的方言。tweet比较短,在240个词之内并且语言已经告知,情感分析需要分成4类,Positive,Negative,Neutral,None。使用LSTM来完成这项任务。Introduction情绪分析(SA)是指使用自然语言处理(NLP)系统地识别、提取、量化、和研究情绪状态和主观信息。Sen

2021-04-06 10:01:33 173

原创 FACT2020: Factuality Identification in Spanish Text

Abstract提出了Factuality Analysis and Classification Task(FACT),对于任务一的分类任务,效果最好的是采用RNN的方法,采用的是训练有关事件单词及其附近的嵌入数据,对于任务二,采用简单的建模方法。Introduction介绍Factuality Classification1.Task1 description把一个事件分成三类,确定的事件发生,确定的事件不发生,和不确定的事件。训练一个分类器来预测给定文本中事件的类别。数据处

2021-04-05 16:53:04 92

原创 TASS 2020: TWilBERT for Sentiment Analysis and Emotion Detection in Spanish Tweets

Abstract使用Bert在西班牙语tweet中进行情感分类,双向BertIntroduction使用模型bert,基于对西班牙语tweet的Bert模型的预训练适应性的微调。介绍本文结构,第二节介绍解决了的任务,第三节提出了一些设想,和baseline model。第四节,对实验进行评估评价和实验的结果进行分析,最后第5节显示了一些结论和未来的工作。对数据集进行分析In Table 2 the tweet distribution for each emotion in th

2021-04-05 15:13:30 119

原创 TASS 2019: Data Augmentation and Robust Embeddings for Sentiment Analysis

abstract主要任务是在西班牙tweet中进行情感分类,主要使用到bags-of-words,bag-of-characters和tweet embedding。尤其是训练了单词前缀embedding(subword-aware word embedding)的鲁棒性和使用权重均衡策略(weighted-averageing strategy)计算了tweet的表示法。使用两种数据增强技术来处理数据稀缺性问题。双向交叉增强(two-way-translation)和实例交叉增强(instance

2021-04-05 10:34:06 181

原创 OpenAI GPT

1.OpenAI GPTOpenAI 在论文《Improving Language Understanding by Generative Pre-Training》中提出了 GPT 模型,后面又在论文《Language Models are Unsupervised Multitask Learners》提出了 GPT2 模型。GPT2 与 GPT 的模型结构差别不大,但是采用了更大的数据集进行实验。GPT采用的训练方法分为两步,第一步利用没有标签的文本数据集训练语言模型,第二步更加具体的下游任务

2021-03-18 20:51:28 674

转载 BERT笔记

**BERT**BERT全称为Bidirectional Encoder Representation from Transformer 是 Google 以无监督的方式利用大量无标注文本「炼成」的语言模型,其架构为 Transformer 中的 Encoder(BERT=Encoder of Transformer)一.BERT两个任务1.漏字填空(Cloze task) Masked Language Model在 BERT 中,Masked LM(Masked Language Model

2021-03-16 21:49:06 492

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除