自然语言处理
文章平均质量分 89
George&Rita
星光不负赶路人!
展开
-
《Synchronous Double-channel Recurrent Network for Aspect-Opinion Pair Extraction》论文笔记
一、摘要过往的方面级情感分析抽取任务中,往往只会抽取aspect and/or opinions,忽略了它们之间的关系。本文提出的任务是 Aspect-Opinion Pair Extraction(AOPE) 任务,旨在成对抽取aspects和opinions。本文提出的模型是Synchronous Double-channel Recurrent Network(SDRN 同步的双通道循环神经网络)。主要的思想是构建opinion entity extraction unit(观点实体抽取单元)原创 2021-11-13 22:20:26 · 742 阅读 · 0 评论 -
《Opinion Word Expansion and Target Extraction through Double Propagation》论文笔记
一、摘要本文旨在于解决两方面的问题。opinion lexicon expansion(意见词典扩展)opinion target extraction (意见目标扩展)为了解决上面两方面的问题,通过使用依赖解析器去扩展意见字典和挖掘目标,使得opinion words和targets建立联系。作者使用双向循环的方法来使用信息在opinion words和target之间不断传播。这种方法的好处就是只需要一个初始的opinion字典即可。二、介绍opinion lexicon就是包原创 2021-11-10 14:39:24 · 632 阅读 · 0 评论 -
《Aspect-Category-Opinion-Sentiment Quadruple Extraction with Implicit Aspects and Opinions》论文笔记
一、摘要产品的评论中包含了许多隐含的方面和意见,但是在以往的方面级情感分析中常常忽略这一点。本文提出了一个新的任务,Aspect-Cateogry-Opinion-Sentiment(ACOS)四元组抽取任务,以此来支持从评论中挖掘更多的隐含方面和意见。此外,作者还构建了两个新的数据集来适应这项任务,Restaurant-ACOS 和 Laptop-ACOS。两个数据集都包含了四元组抽取和隐含的aspects 和 opinions。作者还尝试用四个baseline 系统去进行测试二、介绍原创 2021-11-10 14:38:10 · 2262 阅读 · 1 评论 -
《XLNet:Generalized Autoregressive Pretraining for Language Understanding》论文笔记
一、摘要因为拥有双向建模的能力,降噪的自编码预训练模型(如BERT)通常会比基于自回归的语言模型拥有更好的效果。但是BERT模型也存在缺陷,如忽略了masked位置之间的依赖关系、预训练和微调之间存在差异(预训练有mask标签,应用在下游任务的时候没有mask标签)。本文提出的XLNet,整合了两大类模型的优点,改进了各自的缺点,主要改进:通过最大化所有可能的分解顺序的排列的期望可能性去学习双向的文本依赖。克服了BERT模型的缺点融合了Transformer-XL的思想在BERT论文使原创 2021-11-10 14:34:27 · 694 阅读 · 0 评论 -
《Transformer-XL_Attentive Language Models Beyond a Fixed-Length Context》论文笔记
一、摘要传统的Transformers受限于固定长度的文本。本文提出了Transformer-XL模型,这个模型使得文本的依赖能够超越固定文本的长度,并且不会产生时间上的错乱。模型由片段级别递归和新型的位置编码方案组成,主要解决了文本长距离依赖和文本碎片化问题,在时间上面也比vanilla Transformer快很多。Transformer-XL模型在enwiki8数据上取得0.99的困惑度,text8上取得1.08困惑度,WikiText-103上取得18.3的困惑度,One Billion原创 2021-11-10 14:27:49 · 1232 阅读 · 0 评论 -
《Self-Attention with Relative Position Representations》论文笔记
一、摘要在传统transformer中,无法像循环神经网络和卷积神经网络一样加入相对位置信息和绝对位置信息。这使transformer模型缺少很重要一部分信息。本文提出在==自注意力机制中加入相对位置信息,用来表征序列中元素的距离关系==。同时,本文发现融合相对位置和绝对位置信息对模型在翻译任务中的质量没有提高。二、介绍在注意力模型架构中,要加入位置信息,通常会使用position encoding或者基于距离的偏置注意力权重。在机器翻译中,作者尝试完全移除绝对位置编码,并加入相对位置编码原创 2021-11-10 14:24:31 · 647 阅读 · 0 评论 -
《Character-Level Language Modeling with Deeper Self-Attention》论文笔记
一、摘要原始的RNN和LSTM模型是使用前向传播遍历整个序列来计算损失,然后再通过反向传播遍历整个序列来计算梯度,具体过程如下图所示:但是这种方式对于时间和内存的消耗都是巨大的。因此,有学者提出了Truncated Backpropagation的概念,思想是将序列分成很多个小块,首先在第一个序列块中前向传播计算损失,然后在第一个序列块中进行反向传播更新梯度。之后将第一个序列块的隐藏层状态传递给第二个序列块,执行前向传播计算损失,再进行反向传播更新梯度(仅在第二个序列块中进行)。依次类推,具体如原创 2021-11-10 14:19:55 · 565 阅读 · 0 评论 -
《RoBERTa:A Robustly Optimized BERT Pretraining Approach》论文笔记
一、摘要预训练模型在语言模型中起到了很大的作用,但是训练成本很高。并且很多预训练模型都是使用不同大小的私有数据集进行训练,超参数的选择也会直接对结果产生影响。本文提出的模型仔细考虑了许多关键超参数和训练集大小的影响。本文发现Bert模型没有充分得到训练,但是仍然可以超过其他模型的效果。二、介绍本文是基于Bert模型提出了RoBERTa模型。主要改进有以下四个方面:使用更多的批量、更多的数据训练更长的时间移除了Bert模型中next sentence prediction objecti原创 2021-11-10 14:13:56 · 731 阅读 · 0 评论 -
《BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding》论文笔记
一、摘要BERT是由Transformer中的编码器组成的。BERT是通过双向深度提取未标记文本的特征表示的预训练模型。BERT能够仅仅通过添加一个额外的输出层来对预训练的模型进行微调,从而适应各种自然语言处理方面的任务,如问题回答、自然语言推理等。二、介绍预训练模型针对下游任务一般会有两方面的工作:feature-based和fine-tuningfeature-base:通过预训练模型,训练出词向量作为特征,输入到下游任务中。fine-tuning:通过对预训练模型增加一个输出层,原创 2021-11-10 14:10:54 · 138 阅读 · 0 评论 -
《Attention is all you need》论文笔记
一、摘要传统的字符转换模型都是基于编码器和解码器的循环神经网络或卷积神经网络。本文提出了一个完全基于注意力机制的模型。在WMT 2014 English-to-German 数据集上,模型获得28.4的BLEU值,超过所有模型2个BLEU二、介绍循环神经网络的缺点主要是无法实现并行计算。(因子分解的方法在很大程度上可以缓解这一问题)。注意力机制现在被广泛应用,注意力机制不需要考虑在输入和输出序列上的距离问题。本文提出了transformer模型,该模型抛弃了循环网络的架构。提出了更加支持原创 2021-11-10 11:33:24 · 235 阅读 · 0 评论 -
《Named Entity Recognition with Bidirectional LSTM-CNNs》论文笔记
一、摘要命名实体识别任务通常需要大量的外部知识,如很好的特征提取、字典等等。本文提出了一种新的神经网络架构,这个架构可以通过使用双向LSTM和CNN的混合模型自动提取单词级和字符级的特征,避免了大量特征工程的工作。提出了词汇表部分匹配算法,通过BIOES Annotation 去对词汇表中的单词前缀后缀进行匹配。通过引入使用公共资源构建的词汇表,本文的模型在CONLL-2003数据集上取得91.62的F1值,在OneNotes数据集上取得86.28的F1值。二、介绍传统的模型,如CRF、原创 2021-11-10 11:29:58 · 1259 阅读 · 0 评论