ERNIE 3.0: 大规模知识增强的预训练语言理解和生成框架

【摘要】

本文提出了ERNIE 3.0框架,用于在包含普通文本和知识图谱的4TB语料库上预训练大规模知识增强模型。ERNIE 3.0融合了自回归网络和自编码网络,使得训练模型可以轻松适应自然语言理解和生成任务,实现零样本学习、少样本学习或微调。模型使用100亿参数训练,实验结果表明,ERNIE 3.0在54个中文NLP任务中表现优于最新的模型,并在SuperGLUE基准测试中取得第一名,超越了人类性能0.8%。

主要贡献:

  1. 提出了一种统一框架ERNIE 3.0,结合了自回归网络和自编码网络,使得模型能够处理自然语言理解和生成任务。
  2. 大规模知识增强模型的预训练,使用100亿参数训练,并在各种NLP任务中进行了大量实验。
  3. 在54个NLP任务中表现优越,特别是在SuperGLUE基准测试中超越了人类性能。

重要改进:

  • 任务范式的统一框架:ERNIE 3.0通过零样本学习、少样本学习或微调,实现了对自然语言理解和生成任务的处理。
  • 大规模参数的知识增强:ERNIE 3.0使用4TB语料库进行训练,包括普通文本和大规模知识图谱。
  • 多任务预训练:ERNIE 3.0通过多任务学习方法,增强模型对不同任务场景下词汇、句法和语义信息的理解。

实验结果:

  • NLP任务:ERNIE 3.0在54个任务中表现显著优于现有模型。
  • SuperGLUE基准测试:在SuperGLUE测试集中,ERNIE 3.0取得了90.6%的评分,排名第一。

相关工作:

  • 介绍了大规模预训练模型的发展趋势,包括参数规模的增加、模型架构的改进以及新出现的知识增强模型。
  • 讨论了知识增强模型的最新进展,包括知识图谱的引入以及多模态数据的应用。

结论:

ERNIE 3.0框架在大规模知识增强模型的预训练中取得了显著进展,通过融合自回归网络和自编码网络,提升了模型在多种NLP任务中的性能。

【数据来源】

本文综述了ERNIE 3.0模型的数据来源及相关实验。ERNIE 3.0是一个知识增强的大型预训练语言模型,旨在同时处理自然语言理解和生成任务。该模型训练使用了一个包含4TB文本和知识图谱的数据集。数据集包括多种类型的文本数据,如维基百科、新闻文章、书籍等。模型设计包括统一的预训练框架,结合了自动编码网络和自回归网络,以适应零样本学习、少量样本学习和微调。实验结果表明,ERNIE 3.0在54个中文NLP任务中表现出色,并在SuperGLUE基准测试中首次超过了人类水平(90.6% vs. 89.8%)。

【模型架构】

论文模型架构总结:ERNIE 3.0

摘要

预训练模型在自然语言处理(NLP)任务中取得了最先进的成果。最近的工作,如T5和GPT-3,表明预训练语言模型的规模扩大可以提高其泛化能力。尤其是GPT-3模型,拥有1750亿参数,展示了其在零样本/少量样本学习中的强大任务无关学习能力。然而,这些大规模模型是在纯文本上训练的,缺乏诸如语言知识和世界知识等显式表示。此外,大多数大规模模型是通过自回归方式训练的,这限制了其在下游语言理解任务中的表现。为了解决这些问题,提出了一个统一框架ERNIE 3.0,该框架结合了自回归网络和自编码网络,使得训练模型既能处理自然语言理解和生成任务,又能通过零样本/少量样本学习或微调来实现。

1. 引言

预训练语言模型如ELMo、GPT、BERT和ERNIE等,在各种自然语言处理任务中证明了其有效性,这些任务包括情感分类、自然语言推理、文本摘要、命名实体识别等。预训练语言模型通常在大规模文本数据上以半监督方式学习,然后在下游任务上进行微调或直接部署。这些预训练语言模型已成为自然语言处理任务的新范式。

2. 相关工作
  • 大规模预训练模型:近年来,预训练语言模型的一个重要趋势是模型规模的扩大,这导致了预训练中的困惑度降低和下游任务性能的提升。Megatron-LM使用了一种简单但高效的层内模型并行方法,提出了简单的内部层模型并行策略,实现了几个数据集上的最新成果。T5模型通过100亿参数探索了预训练模型的能力,而GPT-3的参数量高达1750亿,表现优秀。随后,Switch-Transformer作为首个万亿参数预训练语言模型被提出。
  • 知识增强模型:预训练语言模型从大规模语料中捕获语义和句法知识,但缺乏世界知识。最近的研究尝试在预训练语言模型中引入世界知识。WKLM通过知识图谱中的实体和关系嵌入来增强预训练模型,而CoLAKE则将语言上下文与知识上下文结合,利用扩展的掩码语言模型目标进行学习。
3. ERNIE 3.0框架
  • 框架概述:ERNIE 3.0通过融合自回归网络和自编码网络,能够在大规模知识增强模型上进行预训练,支持零样本/少量样本学习或微调。ERNIE 3.0结合了多任务学习的方法,支持任务的即时引入和增量训练。
  • 详细架构:ERNIE 3.0采用Transformer-XL作为骨干网络,包括一个48层、4096隐藏单元和64个头的通用表示模块,以及任务特定的表示模块,包括12层、768隐藏单元和12个头的结构。总参数量为10亿。使用Gelu作为激活函数。上下文的最大序列长度设置为512,语言生成的内存长度设置为128。所有预训练任务的总批次大小设置为6144。使用Adam优化器,学习率为1e-4,β1=0.9,β2=0.999,L2正则化为0.01,学习率在前10,000步中有预热过程,并在训练过程中线性衰减。
4. 实验
  • 性能比较:在54项中文NLP任务上,ERNIE 3.0在SuperGLUE基准测试中获得了第一名,性能超越了其他最先进的模型。
  • 任务类型:包括情感分析、意见提取、自然语言推理、关系抽取、事件抽取、语义相似度、新闻分类、闭卷问答、机器阅读理解、文本摘要、问题生成、数学生成、广告生成、翻译和对话生成等任务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

土豆.exe

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值