模型-语言模型
文章平均质量分 91
模型-语言模型
nopSled
一周一更
展开
-
Mixtral of Experts翻译
在本文中,我们提出了 Mixtral 8x7B,这是一种具有开放权重的稀疏混合专家模型 (SMoE),在 Apache 2.0 下获得许可。Mixtral 在大多数基准测试中都优于 Llama 2 70B 和 GPT-3.5。由于它仅对每个token使用其参数的子集,因此 Mixtral 可以在小批量大小下实现更快的推理速度,并在大批量大小下实现更高的吞吐量。Mixtral 是一个稀疏的混合专家网络。它是一个纯解码器模型,其中前馈块从 8 个不同的参数组中进行选择。翻译 2024-01-29 03:24:53 · 47 阅读 · 0 评论 -
MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers翻译
具有数百万个字节的序列无处不在;例如,音乐,图像或视频文件通常由多个兆字节组成。但是,大型transformer解码器(LLM)通常仅使用数千个上下文token,这是因为自注意力的二次运算成本,而且更重要的是,还有每一个位置大型前馈网络的成本。这严重限制了可以应用LLM的任务集合。我们介绍了MEGABYTE,这是一种建模长字节序列的新方法。首先,字节序列可以被分割为固定大小的patches,这与tokens相似。然后,我们的模型由三个部分组成:(1)翻译 2023-05-22 18:52:53 · 412 阅读 · 0 评论 -
Scaling Instruction-Finetuned Language Models翻译
人工智能的一个重要目标是开发一个可以泛化到未知任务的模型。在自然语言处理(NLP)中,预训练语言模型已沿着这一目标取得了重大进展,因为它们可以在给定自然语言描述的情况下执行任务。通过在一系列任务指令集中微调语言模型取得了进一步的进展,这使模型能够更好地响应指令减少对few-shot样例的需求。在本文中,我们通过多种方式来提高指令微调。首先,我们研究了缩放对指令微调的影响。我们的实验表明,指令微调确实可以随着任务的数量和模型的大小而缩放。他们各自的缩放行为表明,未来的研究应扩大任务数量和模型的规模。翻译 2022-12-13 11:52:19 · 951 阅读 · 0 评论 -
Large Language Models Are Reasoning Teachers翻译
语言模型(LMS)已在各种下游任务中表现出了出色的性能,这主要归因于由Transformer网络结构和大规模训练数据的可用性所实现的可扩展性。以前关于语言模型的工作遵循了在大型语料库进行预训练,然后在下游任务上进行微调的范式。最近,大型语言模型(LLM)已表现出其in-context的泛化能力:仅以少量上下文样例或原始任务的自然语言描述,来执行下游任务。当模型被提示以生成中间推理时,LM还表现出了解决复杂任务的能力。翻译 2023-02-01 15:11:29 · 291 阅读 · 0 评论 -
Pretraining Without Attention翻译
transformer是NLP预训练中一个非常有用的模型结构。自BERT以来,已经证明了该结构在NLP任务上高效学习大量未标注数据的核心能力。尽管有其他网络结构的使用,但需要引入注意力层才能高准确性。最近的工作表明,状态空间模型(SSM)是长序列建模的有效结构。SSM在语音生成上达到了SOTA,且在Long Range Arena 基准上优于transformer结构。除了能提高准确率以外,基于SSM的路由并没有随序列长度增加的二次复杂度。翻译 2023-01-16 11:59:03 · 82 阅读 · 0 评论 -
Few-shot Learning with Multilingual Generative Language Models
大型自回归语言模型(例如GPT-3)可以通过few-shot和zero-shot的学习来适应多种任务,其成本比全面微调要少得多。这些模型主要是为英语开发的。尽管GPT-3的训练数据包含一小部分非英语文本(7%),从而实现了一些有希望的跨语种泛化性,但该模型几乎仅专门用于英语应用场景。目前已经研究了包括mBERT,XLM-R,mT5和mBART的多语种屏蔽和序列到序列语言模型。这些模型通常在下游任务中的大量标注数据上进行微调。翻译 2022-12-30 16:39:49 · 335 阅读 · 0 评论 -
Kformer: Knowledge Injection in Transformer Feed-Forward Layers翻译
基于Transformer(例如BERT)的预训练语言模型在许多自然语言处理(NLP)任务上显示出显着的性能。但是,最近的研究表明,知识驱动的下游任务的性能(例如常识推理)往往取决于外部知识。因此,直接微调预训练的LM会产生次优的结果。为了解决这个问题,一些作品试图将外部知识整合到预训练LM中,这些外部知识为知识驱动任务提供了有希望的方向。一方面,一些方法试图通过将输入序列与外部检索信息(例如Wikipedia,知识事实)拼接来融合知识。翻译 2022-12-26 16:54:48 · 368 阅读 · 0 评论 -
Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets翻译
语言模型可以产生有害以及有偏见的输出,并根据给定的文化背景表现出不良行为。 我们提出了使用Values-Targeted数据集的Process for Adapting Language Models to Society (PALMS),这是一个迭代过程,可以通过在一组提前定义了目标值的数据集上进行定制和微调来显着改变模型的行为。 我们使用三个指标来评估我们的过程:使用人类评估的定量指标,将基于目标值输出评分,以及输出有害性的评分;以及定性指标,分析与给定社会类别相关的最常见单词。通过每次迭代,我们根据评翻译 2022-12-22 13:17:01 · 145 阅读 · 0 评论 -
Locating and Editing Factual Associations in GPT翻译
大型语言模型将事实存储在哪里?在本文中,我们报告的证据表明,GPT中的事实对应于可以直接编辑的局部计算。大型语言模型可以预测世界相关的事实描述。例如,给定“The Space Needle is located in the city of”的前缀,GPT能可靠地预测出真正的答案:“Seattle”(图1a)。已经观察到在自回归GPT模型和屏蔽BERT模型中都出现了事实知识。在本文中,我们研究了这些种事实是如何存储在类似GPT的自回归transformer模型中的。翻译 2022-12-16 12:59:58 · 1396 阅读 · 0 评论 -
DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION翻译
Transformer已成为神经语言建模中最有效的神经网络结构。与按顺序进行处理文本的循环神经网络(RNN)不同,transformer应用自注意力来并行计算输入文本中的每个单词的注意力权重,以衡量每个单词对另一个单词的影响,因此比RNN能更快加速大型模型的训练。自2018年以来,我们已经看到了一系列大规模的基于transformer的预训练语言模型(PLM),例如GPT,BERT,RoBERTa,XLNet,UniLM,ELECTRA,T5,ALUM,StructBERT和ERINE。翻译 2022-10-14 17:21:33 · 181 阅读 · 0 评论 -
A Simple but Effective Pluggable Entity Lookup Table for Pre-trained Language Models翻译
预训练语言模型(PLM)的最新进展已在各种下游任务取得了巨大的改进。一些最新工作表明,PLM可以通过自监督的预训练从大规模预料中自动获取知识,然后将学习的知识编码为其模型参数。但是,由于词汇能力有限,现有的PLM面临着从参数中回顾事实知识的挑战,尤其是对于那些稀有实体。为了提高PLM的实体理解能力,一个直接的解决方案是利用从知识图谱(KG),实体描述或语料中获得的外部实体嵌入。为了利用外部知识,这些模型通常学习将外部实体嵌入与原始单词嵌入对齐。PluggableEntityLookupTable(...翻译 2022-07-29 17:47:15 · 365 阅读 · 0 评论 -
CTRL: A CONDITIONAL TRANSFORMER LANGUAGE MODEL FOR CONTROLLABLE GENERATION翻译
摘要大型语言模型在文本生成任务上显示了很好的结果,但用户无法轻易控制所生成文本的特定方面。我们开源了CTRL,它是一个具有1.63亿参数的transformer条件语言模型,以给定的风格,内容以及针对任务行为的控制code为条件,来进行模型训练。控制code来自与原始文本相关的结构,从而保留了无监督学习的优势,同时为文本生成提供更明确的控制。给定一个序列,这些code还允许CTRL预测训练数据的哪些部分与该序列最相似。这提供了一种通过基于模型的源属性分析大量数据的潜在方法。我们在https://githu翻译 2022-01-17 19:56:42 · 737 阅读 · 0 评论 -
On the Sentence Embeddings from Pre-trained Language Models翻译
摘要预训练的上下文表示,如BERT在自然语言处理中取得了巨大的成功。然而,已经发现从预训练语言模型中获取的没有微调的句子嵌入,并不能完整的捕获句子嵌入。在本文中,我们认为BERT Embeddings中的语义信息没有完全利用。我们首先在理论上揭示蒙版语言模型预训练目标和语义相似性任务之间的理论连接,然后经验分析BERT句子嵌入。我们发现BERT总是诱导句子的非顺利各向异性语义空间,这损害了其语义相似性的性能。为了解决这个问题,我们建议通过使用无监督目标学习的流程来将各向异性句子分配转变为平滑和各向同性高斯翻译 2021-10-27 16:01:47 · 192 阅读 · 0 评论 -
Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks翻译
摘要BERT和Roberta在语义文本相似度(STS)中的句子对回归任务中达到了新的最先好性能。但是,它要求同时将两个句子带入到网络中,这导致大的计算开销,例如,在10,000个句子的集合中查找最相似的句子对需要大约5000万次推理计算(〜65小时)。BERT的构造使其不适合基于语义相似性的搜索以及聚类等无监督任务。 在本论文中,我们提出了 Sentence-BERT(SBERT),用triplet网络结构修改了预训练BERT网络,以获得可以使用余弦相似度比较的语义有意义的句子嵌入。这即减少了BERT翻译 2021-09-25 10:42:15 · 241 阅读 · 0 评论 -
Long Text Generation by Modeling Sentence-Level and Discourse-Level Coherence翻译
摘要生成长且连贯的文本是一个重要但具有挑战性的任务,特别是对于诸如故事生成的开放式语言生成任务。 尽管在模拟句子内连贯性方面取得了成功,但现有的一代模型(例如,BART)仍然努力在整个生成的文本中维护一个相干事件序列。 我们猜测这是因为解码器难以在令牌级共同发生超越的上下文中捕获高级语义和话语结构。 在本文中,我们提出了一个长文本生成模型,它可以代表解码过程中的句子级和话语级别的前缀句子。 为此,我们提出了两个预测目标,通过预测句子语义相似性和区分正常和随机的句子命令来学习表示。 广泛的实验表明,我们的模翻译 2021-09-19 11:44:16 · 756 阅读 · 1 评论 -
All NLP Tasks Are Generation Tasks: A General Pretraining Framework翻译
摘要已经存在各种类型的预训练架构,包括自回归模型(例如GPT),自编码模型(例如BERT)和编码器-解码器模型(例如T5)。另一方面,NLP任务本质上是不同的,三个主要类别是分类,无条件生成和有条件生成。但是,没有一个预训练框架在所有任务上都表现最佳,这给模型开发和选择带来了不便。我们提出了一种新的预训练框架GLM(通用语言模型)来应对这一挑战。与以前的工作相比,我们的体系结构具有三个主要优点:(1)它在分类,无条件生成和使用单个预训练模型的条件生成任务上表现良好;(2)由于改进了预训练-微调的一致性翻译 2021-05-14 17:14:51 · 309 阅读 · 0 评论 -
ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training翻译
摘要本文提出了一种新的序列到序列预训练模型ProphetNet,该模型引入了一种新的自监督目标,称为未来n-gram预测,并提出了n流自注意力机制。与传统的序列到序列模型中单步提前预测优化不同,ProphetNet通过n步提前预测进行优化,该预测基于每个时刻的先前上下文字符同时预测接下来的n个字符。未来n-gram预测明确鼓励模型对未来的字符进行规划,并防止在强局部相关性上过拟合。我们分别使用基本规模的数据集(16GB)和大规模的数据集(160GB)对ProphetNet进行了预训练。然后,我们在CNN翻译 2021-04-21 13:51:15 · 1386 阅读 · 0 评论 -
PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization
摘要翻译 2021-04-16 16:11:47 · 1172 阅读 · 0 评论 -
ERNIE-GEN翻译
摘要翻译 2021-04-09 16:23:12 · 336 阅读 · 0 评论 -
Language Models are Unsupervised Multitask Learners翻译
摘要翻译 2021-03-03 16:52:29 · 257 阅读 · 0 评论 -
BART: Denoising Sequence-to-Sequence Pre-training翻译
摘要我们介绍了BART,一种用于预训练序列到序列模型的去噪自编码器。通过(1)使用任意噪声函数来对文本进行加噪,并(2)学习模型以重建原始文本来训练BART。它使用基于标准Tranformer的神经机器翻译架构,尽管它很简单,但可以看作是BERT(由于双向编码器),GPT(具有从左至右解码器)以及许多其他最近的预训练方案的扩展。我们评估了多种加噪方法,发现通过随机改变原始句子的排列顺序并使用新的填充方案(其中文本段被单个mask标记替换)能获得最佳性能。当针对文本生成进行微调时,BART特别有效,并且对于翻译 2020-10-20 20:04:35 · 1833 阅读 · 5 评论 -
CONTEXT DEPENDENT PHONE MODELS FOR LSTM RNN ACOUSTIC MODELLING翻译
摘要长短期记忆循环神经网络(LSTM RNN)与隐马尔可夫模型(HMM)结合在一起,最近表现出优于其他声学模型的性能,例如用于大规模语音识别的高斯混合模型(GMM)和深层神经网络(DNN) 。我们认为,使用具有LSTM RNN的多状态HMM声学模型是GMM-HMM和DNN-HMM建模的不必要方式,因为LSTM RNN能够通过连续而非分段固定的声学轨迹建模来预测输出分布。我们证明了上下文无关的全音素或三态模型的具有相等的结果,并显示了最小持续时间的建模可以改善结果。我们继续说明,在给定最小持续时间模型的情况翻译 2020-07-03 14:52:27 · 287 阅读 · 0 评论 -
语言模型|基于Transformer(不分段)的xlnet语言模型实现及代码开源
github:1.背景知识xlnet语言模型是一个自回归语言模型,与传统语言模型相比主要有以下5个特点: (1)全排列预测 假设给定输入序列X=[x1,x2,x3]X=[x_1,x_2,x_3]X=[x1,x2,x3],其一共有A33=6A^3_3=6A33=6种组合方式,全排列预测指的是,在保证输入序列中每个单词位置不变的情况下,去改变单词的预测顺序,即对于上面又三个单词组成...原创 2019-11-18 14:32:03 · 695 阅读 · 0 评论 -
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context翻译
github:https://github.com/kimiyoung/transformer-xl摘要Transformers具有学习长期依赖的潜力,但在语言模型的设置中受到固定长度上下文的限制。我们提出了一种新型的神经网络结构Transformer-XL,它可以在不中断时间一致性的情况下学习到超出固定长度的依赖性。它由段级重现机制和新的位置编码方案组成。我们的方法不仅可以捕获长距离依赖性,...翻译 2019-07-05 10:48:51 · 699 阅读 · 2 评论 -
XLNet: Generalized Autoregressive Pretraining for Language Understanding翻译
github:https://github.com/zihangdai/xlnet摘要凭借对双向上下文进行建模的能力,与基于自回归语言模型的预训练方法(GPT)相比,基于像BERT这种去噪自编码的预训练方法能够达到更好的性能。然而,由于依赖于使用掩码(masks)去改变输入,BERT忽略了屏蔽位置之间的依赖性并且受到预训练与微调间差异的影响。结合这些优缺点,我们提出了XLNet,它一种通用的自...翻译 2019-06-27 11:29:14 · 3540 阅读 · 2 评论 -
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding翻译
摘要我们引入了一个新的被称为BERT的语言表示模型,它使用了Transformers的双向编码表示。与最近的语言表示模型(Peters et al., 2018; Radford et al., 2018)不同,BERT旨在通过联合调节所有层中的左右上下文来预先训练深度双向表示。因此,预训练的BERT模型能够使用一个额外的输出层进行微调(fine-tune),从而为各种任务创建最先进的模型,例如...翻译 2019-03-29 11:32:56 · 829 阅读 · 0 评论 -
Professor Forcing: A New Algorithm for Training Recurrent Networks翻译
摘要Teacher Forcing算法通过在训练的时候,将目标输出作为输入并使用网络自己的一次性预测来进行多步采样,从而对循环神经网络进行训练。我们引入Professor Forcing算法,在训练网络以及在多个时刻从网络采样时,使用对抗域自适应(adversarial domain adaptation)来鼓励循环网络的动态变化相同。我们将Professor Forcing应用到语言模型,原始...翻译 2019-02-22 15:06:02 · 1610 阅读 · 0 评论 -
MASKGAN: BETTER TEXT GENERATION VIA FILLING IN THE __ 翻译
摘要用来进行文本生成的模型经常是使用自回归模型或者Seq2Seq模型。这些模型通过按顺序抽样单词进行文本的生成,并且每一时刻生成的单词由前一时刻生成的单词决定,这作为机器翻译以及文本摘要的最新实现技术。这些评价指标由困惑度(validation perplexity)来定义,尽管困惑度并不是评价文本生成质量的直接测量方法。另外,这些模型通过使用最大似然(maximum likelihood)和给...翻译 2019-01-06 18:20:00 · 1390 阅读 · 4 评论 -
Teacher Forcing for Recurrent Neural Networks
Teacher Forcing是一种用来快速而有效地训练循环神经网络模型的方法,这种方法以上一时刻的输出作为下一时刻的输入。 它是一种网络训练方法,对于开发用于机器翻译,文本摘要和图像字幕的深度学习语言模型以及许多其他应用程序至关重要。 阅读这篇文章后,你会知道:训练循环神经网络的问题是使用上一时刻的输出作为下一时刻的输入。在训练这些类型的循环网络时,Teacher Forcing是...翻译 2019-01-21 11:04:12 · 5345 阅读 · 0 评论