![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
经典论文
文章平均质量分 71
fmf1287
这个作者很懒,什么都没留下…
展开
-
经典论文阅读(9)——XLNET
由于具有双向上下文建模的能力,BERT等基于自编码的预训练方法比基于自回归语言建模的预训练方法具有更好的性能然而。但由于依赖于用mask破坏输入,BERT忽略了mask位置之间的依赖关系,并遭受了训练前微调的差异。本文提出了一种广义的自回归预训练方法XLNet,该方法(1)通过最大化所有分解顺序排列的期望似然来实现双向上下文学习,(2)由于其自回归公式,克服了BERT的局限性。此外,XLNet集成了Transformer-XL的思想,这是最先进的自回归模型。AR自回归语言模型寻求用自回归模型估...原创 2022-01-26 17:10:58 · 1185 阅读 · 0 评论 -
经典论文阅读(8)——Transformer-XL
Transformer有学习长期依赖关系的潜力,但在语言建模设置中受到固定长度上下文的限制。我们提出了一种新的神经结构Transformer-XL,它可以在不破坏时间一致性的情况下,使学习依赖超出固定长度。它由段级递归机制和一种新的位置编码方案组成,不仅能够捕获长期依赖关系,而且还解决了上下文碎片问题。根据经验,LSTM语言模型使用平均200个上下文单词,有进一步的提升空间。在注意力机制中形成的词对之间的直接联系使长距离依赖学习成为可能,但由于上下文的长度是固定的,传统的Transformer...原创 2022-01-05 08:40:46 · 628 阅读 · 0 评论 -
经典论文阅读(7)——ALBERT
在对自然语言表示进行预训练时,增加模型大小通常可以提高下游任务的性能。然而,在某些情况下,由于GPU/TPU内存的限制和更长的训练时间,进一步增加模型变得更加困难。ALBERT提出了两种参数减少技术,以降低内存消耗,提高BERT的训练速度,并且利用了一种自我监督的loss对句子连贯性构建。第一个是分解的embedding参数化。通过将大的词汇表嵌入矩阵分解为两个小的矩阵,将隐藏层的大小与词汇表嵌入的大小分开。这种分离使得在不显著增加词汇表嵌入的参数大小的情况下更容易增加隐藏大小。第二种技术是跨层参...原创 2021-12-28 09:04:31 · 1708 阅读 · 0 评论 -
经典论文阅读(7)——NEZHA
论文位置:NEZHA: Neural Contextualized Representation for Chinese Language Understanding –arXiv VanityNEZHA基于BERT,并进行了一系列改进,包括作为一种有效的位置编码方案的功能相对位置编码、全字mask策略、混合精度训练和训练模型的LAMB优化。预训练NEZHA模型功能相对位置编码在基础Transformer的基础上,提出了一种参数相对位置编码,在相对位置编码方案中,注意得分的计...原创 2021-12-14 08:39:04 · 1234 阅读 · 0 评论 -
经典论文阅读(6)——ERNIE
在本文中,我们提出了一个称为ERNIE的模型,通过知识mask策略实现知识整合。除了基本的mask策略外,我们还使用了两种知识mask:短语级mask和实体级mask。Transformer编码器ERNIE使用多层Transformer编码器作为基本的encoder。Transformer可以通过自我注意捕获句子中每个token的上下文信息,并生成一系列上下文embedding。知识集成提出了一种多阶段知识mask策略,将短语级和实体级知识整合到语言表示中,而不是直接加入知...原创 2021-12-14 08:37:10 · 1739 阅读 · 0 评论 -
经典论文阅读(5)——RoBERTa
RoBERTa相较于BERT:(1)训练模型的时间更长,批量更大,数据更多;(2)移除下一句预测目标;(3)长序列训练;(4)动态改变应用于训练数据的mask模式。训练过程分析使用与相同配置的模型(L=12,H=768,A=12,110M参数)。静态mask和动态mask静态mask:为了避免每个epoch的mask模式相同,将训练数据复制10次,每个序列在40个epoch有10个不同的mask模式。动态mask:BERT在数据预处理时执行一次mask,使用静态mask。动...原创 2021-12-13 08:44:51 · 615 阅读 · 0 评论 -
经典论文阅读(4)——BERT
BERT依赖于所有层的上下文进行预训练,学习深度双向表征。屏蔽语言模型MLM随机屏蔽了输入中的一些标记,其目的是根据上下文预测被屏蔽的单词。MLM的目标是将表征融合上下文,以预训练一个深度双向Transformer。除了MLM,还用了一个“下一句预测”任务联合预训练文本对表示。输入表征一个输入token的表征为相应的token embedding、segment embedding、position embedding相加。预训练BERT利用MLM和NSP两个...原创 2021-12-06 18:02:28 · 415 阅读 · 0 评论 -
经典论文阅读(3)——Attention is all you need
递归模型通常沿着输入输出序列进行因子计算,这排除了训练样本的并行化,尤其是输入长序列时,因为内存限制了样本批处理。注意力机制通常对依赖关系建模,而不考虑输入输出序列中他们的距离。Transformer是第一个完全依靠自我注意来计算其输入和输出的表示而不使用序列对齐的rnn或卷积的转换模型。模型架构大多数神经序列转换模型用的是编码-解码结构,编码器将输入序列表征表征为连续表征,解码器在给定z的情况下生成序列。模型架构如下:encoderencoder包含6个独立层,...原创 2021-12-03 16:11:45 · 262 阅读 · 0 评论 -
经典论文阅读(2)——XGBoost
xgboost是基于梯度提升的树,公式如下:其中为CART回归树,每个叶子都有一个连续分数,拟合最终目标的loss函数如下,为预测值,为真实值,T为叶子节点个数,为叶子节点权重平方和。其中将loss进行泰勒公式展开,可以得到:最终得到每个叶子节点的权重为,而对应第t棵树的loss为,其中G为所有样本在该叶子节点的loss的一阶导数之和,H为所有样本在该叶子节点的loss的二阶导数之和。通常采用遍历得到树的结构,每次分裂的loss reduction:...原创 2021-11-15 17:24:51 · 1381 阅读 · 0 评论 -
经典论文阅读(1)——Informer
当解决长序列时间序列预测问题时,Transformer会存在三个问题:1)self attention的平方计算:self-attention中的原子点积,导致了每层时间和空间复杂度为2)长输入时堆叠层的内存瓶颈:J层编码/解码的堆叠使内存使用为,限制了模型在接收长序列输入时的可扩展性。3)预测长期输出的速度降低:Transformer的动态解码与RNN一样慢。本文的贡献如下: 提出了Informer提升长序列时间预测预测问题的预测能力; 提出了ProbSparse...原创 2021-11-15 17:18:14 · 2993 阅读 · 0 评论