《预训练周刊》第28期:M6-10T:高效多万亿参数预训练的共享去链接范式、大模型自然语言处理的最新进展综述...

No.28

智源社区

预训练组

b8016bac6d19afcf65da255515e8d348.png

研究

观点

资源

活动

关于周刊

本期周刊,我们选择了11篇预训练相关的论文,涉及模型训练、图像编码、气候文本、对比学习、文本生成评估、小样本学习、决策推理、胚胎突变预测、蛋白质分析、数据集检测和模型可解释性的探索。此外,在研究动态方面,我们选择了1篇预训练资讯,将介绍大模型综述方面的一些最新内容。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

(本期贡献者:申德周 翟珂 吴新刚)

4a49d8160a7c67218a689ff8a9d38555.png

a7119072d59f2e86ab352dfc03825fa1.png

bfd570b8df696d3c78c3e3af06acd80b.png

cd8df4caaac798f97f74038c1ae422fc.png

534ec948ec22d2bfecb5d90d06c9ce13.png

论文推荐

标题:阿里|M6-10T: A SHARING-DELINKING PARADIGM FOR EFFICIENT MULTI-TRILLION PARAMETER PRETRAINING(M6-10T:用于高效多万亿参数预训练的共享去链接范式)了解详情

作者:Junyang Lin, An Yang, Hongxia Yang

简介:本文介绍一种训练大模型的CPU内存并维护高GPU的方法。深度学习算法、分布式训练、甚至大型模型的硬件设计也使得训练超大规模模型比较困难,比如 GPT-3和Switch Transformer拥有数千亿或甚至数万亿个参数。然而,在资源有限的情况下,极端规模需要大量计算和内存占用的模型训练在模型收敛方面的效率低得令人沮丧。在本文中,作者为需要高内存占用的大型模型提出了一种称为“伪到实”的简单训练策略。“伪到实”兼容大模型具有顺序层的架构。作者展示了预训练的实践前所未有的 10 万亿参数模型,比10天内仅在512个GPU上实现了最先进的技术。除了演示“伪到实”的应用,作者还提供了一种技术,Granular CPU offloading,管理用于训练大型模型的 CPU 内存并维护高 GPU 实用程序。在相当数量的资源上,快速训练超大规模模型可以带来更小的碳足迹,并为更环保的人工智能做出贡献。

论文地址:https://arxiv.org/pdf/2110.03888.pdf

标题:META|Masked Autoencoders Are Scalable Vision Learners(屏蔽自编码器是可扩展的视觉学习器)了解详情

作者:Kaiming He, Xinlei Chen等

简介:本文介绍了掩码自编码器 (MAE) 用于计算机视觉的可扩展自监督学习。作者的MAE方法很简单:屏蔽了输入图像并重建丢失的像素。它基于两个核心设计,首先,作者开发一个不对称的编码解码器架构,具有仅对补丁的可见子集(没有掩码标记)进行操作的编码器,以及用于重建的轻量级解码器来自潜在表示和掩码的原始图像符号;其次,作者发现掩饰的比例很高输入图像,例如 75%,产生一个非平凡的和有意义的自我监督任务。结合这两种设计使作者能够高效地训练大型模型:作者加速训练(3 倍或更多)并提高准确性。作者的可扩展方法允许学习泛化能力强的高容量模型:例如,仅使用 ImageNet-1K数据的方法,ViT-Huge模型达到了最好的准确率(87.8%)。下游任务中的性能优于有监督的预训练,并显示出有希望的扩展行为。

论文地址:https://arxiv.org/pdf/2111.06377.pdf

标题:德国纽伦堡大学、苏黎世联邦理工学院、苏黎世大学瑞士分校 | ClimateBert: A Pretrained Language Model for Climate-Related Text(气候相关文本的预训练模型)了解详情

作者:Nicolas Webersinke, Mathias Kraus等

简介:本文在气候文本领域进行预训练研究实践。近年来,大型预训练语言模型 (LM) 彻底改变了自然语言处理 (NLP) 领域。然而,虽然通用语言的预训练已被证明对通用语言非常有效,但已经观察到小众语言会带来问题。特别是与气候相关的文本包含普通 LM 无法准确表示的特定语言。作者认为,当今 LM 的这一缺点限制了现代 NLP 对气候相关文本的广泛文本处理领域的适用性。作为补救措施,作者提出了 ClimateBert,这是一种基于转换器的语言模型,该模型对超过 160 万段与气候相关的文本进行了进一步的预训练。

论文地址:https://arxiv.org/pdf/2110.12010

标题:亚马逊 | Contrastive Document Representation Learning with Graph Attention Networks(使用图注意力网络进行对比文档表示学习)了解详情

作者:Peng Xu, Xinchi Chen等

简介:本文研究预训练模型与图注意网络的融入结合。基于预训练Transformer的语言模型在学习文本的上下文表示方面取得了巨大的成功。然而,由于二次自我注意的复杂性,大多数预训练的Transformer模型只能处理相对较短的文本。在对很长的文档进行建模时,这仍然是一个挑战。在这项工作中,作者建议在可用的预训练Transformers模型上使用图注意网络来学习文档嵌入。这个图注意网络允许研究者利用文档的高级语义结构。此外,基于此图文档模型,作者设计了一个简单的对比学习策略,在大量未标记语料库上对本研究的模型进行预训练。实验证明了作者的方法在文档分类和文档检索任务中的有效性。

论文地址:https://arxiv.org/pdf/2110.10778.pdf

标题:巴黎综合理工大学、Linagora | FrugalScore: Learning Cheaper, Lighter and Faster Evaluation Metrics for Automatic Text Generation(学习更便宜、更轻、更快的自动文本生成评估指标)了解详情

作者:Moussa Kamal Eddine, Guokan Shang等

简介:本文研究提出高效的自动文本生成评估指标。快速可靠的评估指标是研发进展的关键。虽然传统的自然语言生成指标很快,但它们并不是很可靠。相反,基于大型预训练语言模型的新指标更可靠,但需要大量计算资源。在本文中,作者提出了FrugalScore---是一种学习任何昂贵 NLG 指标的固定的、低成本版本的方法,同时还保留其大部分原始性能。在摘要和翻译方面、基于BERTScore和MoverScore的实验表明,FrugalScore与原始指标相当(有时甚至更好),同时参数少了几个数量级,运行速度提高了几倍。平均而言,在所有学习的指标、任务和变体中,FrugalScore保留了96.8%的性能,运行速度提高了24倍,并且参数比原始指标少 35 倍。

论文地址:https://arxiv.org/pdf/2110.08559.pdf

标题:华盛顿大学、Facebook、艾伦AI研究所 | MetaICL: Learning to Learn In Context(学习在上下文情境中的学习)了解详情

作者:Sewon Min, Mike Lewis等

简介:本研究提出一种新的元训练框架、适用于小样本学习。本文中作者介绍了 MetaICL---上下文学习的元训练、一种用于小样本学习的新元训练框架,其中预训练的语言模型被调整为在大量训练任务上进行上下文学习。这种元训练使模型能够在测试时更有效地学习上下文中的新任务,只需根据几个训练示例进行调节,无需参数更新或特定于任务的模板。作者对由 142 个 NLP 数据集组成的大型多样化任务集合进行实验,包括分类、问答、自然语言推理、释义检测等,跨越七个不同的元训练/目标拆分。MetaICL 优于一系列基线,包括没有元训练的上下文学习和多任务学习,然后是零样本转移。实验发现,对于具有从元训练任务进行域转移的目标任务,收益尤其显着,并且使用不同的元训练任务集是改进的关键。本文还展示了 MetaICL 接近(有时甚至超过)在目标任务训练数据上完全微调的模型的性能,并且优于具有近 8 倍参数的更大模型。

论文地址:https://arxiv.org/pdf/2110.15943.pdf

标题:卡内基梅隆大学、埃森哲 | Cross-Domain Reasoning via Template Filling(通过模板填充进行跨域推理)了解详情

作者:Dheeraj Rajagopal,Vivek Khetan等

简介:本研究中作者探索了序列到序列模型的跨域推理能力。人类通常需要在不同的领域为一些日常决策进行推理。例如:绿叶蔬菜对有血凝块病史的人有益吗?回答该问题需要蔬菜的常识性理解、健康领域知识、以及推理能力。机器是否可以像人类如此地跨领域推理,仍然是一个开放的问题。作者正式将其定义为跨域推理任务---作为一个推理链跨越多个域。本研究中作者提出了一种提示模板填充方法,使序列到序列模型能够执行跨域推理。作者还提供了一个关于常识、健康和福祉领域的案例研究,作者在其中研究了提示模板填充如何使预训练序列能够跨域对模型进行排序。作者在多个预训练的编码器-解码器模型上的实验表明,跨域推理对当前模型具有挑战性。作者还展示了深入的错误分析和未来跨域推理研究的途径。

论文地址:https://arxiv.org/pdf/2111.00539.pdf

标题:中山大学 | A deep learning-based framework for estimating fine-scale germline mutation rates(用于精细估计生殖系突变率的深度学习框架)了解详情

作者:Yiyuan Fang, Shuyi Deng, Cai Li

简介:胚胎突变率对遗传和进化分析至关重要,然而由于观察到的突变相对较少,而且预测因子和突变率之间的关系错综复杂,估计整个基因组的精细尺度突变率是一个巨大的挑战。本文提出了MuRaL,即突变率学习器,一个基于深度学习预训练的框架,只使用基因组序列作为输入来预测精细尺度的突变率。作者利用人类种系突变体进行综合评估,表明MuRaL比目前最先进的方法实现了更好的预测性能。此外,MuRaL可以用相对较少的突变和中等数量的测序个体建立模型,利用迁移学习,以更少的训练数据和时间建立模型。本文应用MuRaL为四个物种--智人、猕猴、拟南芥和黑腹果蝇产生全基因组的突变率图谱,证明了该方法的高度适用性。

论文地址:https://doi.org/10.1101/2021.10.25.465689

标题:宾州儿童医院、宾大 | MutFormer: A context-dependent transformer-based model to predict pathogenic missense mutations(MutFormer : 用于预测致病性错义突变的上下文依赖Transformer)了解详情

作者:Theodore Jiang, Li Fang, Kai Wang

简介:错义突变是一种点突变,导致蛋白质序列中的一个氨基酸被替换。目前,错义突变约占导致人类遗传性疾病的已知突变体的一半,但准确预测错义突变体的致病性仍然是一个挑战。深度学习的最新进展表明,Transformer模型在序列建模方面特别强大,本文开发并介绍了MutFormer,一个用于预测致病性错义变异的基于BERT的模型。作者对MutFormer进行了蛋白序列和由常见遗传变异导致的替代蛋白序列的预训练,可以直接分析蛋白质序列,不需要任何同源信息或额外数据。本文测试了不同的微调方法来预测致病性,MutFormer能够在SNPs的致病性预测方面与目前的方法相匹配或优于其表现。

论文地址:https://arxiv.org/abs/2110.14746v1

标题:南洋理工、威斯康辛麦迪逊 | Generalized Out-of-Distribution Detection: A Survey(广义分布外检测综述)了解详情

作者:Jingkang Yang, Ziwei Liu 等

简介:分布外检测对于确保机器学习系统的可靠性和安全性至关重要。在这项综述中,作者首先提出了一个被称为广义分布外检测的通用框架,它包含了异常检测、新颖性检测、开放集识别、分布外检测和离群检测5个问题,这五个问题可以被看作比较容易区分的特例或子任务。通过总结这五个领域的最新技术发展,作者对它们进行了全面的回顾。尽管针对不同的问题环境,每个领域内开发的方法一般可以分为四组,基于密度的方法,基于重建的方法,基于分类的方法和基于距离的方法。另外,本文也展示了强大的预训练模型在各种任务和模式上取得的成果,证明了预训练Transformer可以显著改善一些特别困难的分布外任务。

论文地址:https://arxiv.org/abs/2110.11334v1

标题:香侬科技、佐治亚理工、清华等 | Interpreting Deep Learning Models in Natural Language Processing: A Review(自然语言处理中的可解释模型:综述)了解详情

作者:Xiaofei Sun, Ziwei Liu 等

简介:可解释性的缺乏不仅降低了自然语言处理系统的可靠性,也限制了其在至关重要的领域的应用范围,例如医疗保健。在这项综述中,作者对与预训练有关的各种可解释方法进行了全面的回顾。本文首先对NLP中的可解释方法进行了高级分类,即基于训练的方法、基于测试的方法和混合方法。接下来,本文详细描述了每个类别中的子类别,例如,基于影响函数的方法、基于KNN的方法、基于注意力的模型、基于显著性的方法、基于扰动的方法等等。其中的关键是,在大规模无标签的一般文本上进行预训练,并在有标签的理性指导数据上进行微调,能够帮助模型产生更加连贯和人类可识别的解释。最后,本文指出了当前方法的不足之处,并提出了未来研究的一些途径。

论文地址:https://arxiv.org/abs/2110.10470v2

e27506b76911904638edba0dae5705f8.png

9fa85109dbc5b3a1bc2921c88aba5737.png

89b9aee674dbc1dd5ca21ff20d43b05a.png

af692ec30d9fb3ec21a3739de0cb3973.png

0d72a23d0637e30df95ed518fb5b3bcd.png

研究动态

标题:雷神,哈佛,宾大|基于大型预训练语言模型自然语言处理的最新进展综述了解详情

作者:Bonan Min, Hayley Ross, Elior Sulem等

简介:本文介绍了大模型的最新进展。BERT等大型、预训练的基于变换器的语言模型已经彻底改变了自然语言处理领域。作者对最近的工作进行了综述,收集了使用大型语言模型通过预训练然后微调、提示或文本生成方法来解决NLP任务的工作。作者还介绍了使用预训练语言模型生成用于训练增强或其他目的的数据的方法,最后讨论了局限性和未来研究的建议方向。

论文地址:http://arxiv.org/pdf/2111.01243

e04de098a351e27c90040c8866fa2b29.png

如果你正在从事或关注预训练学习研究、实现与应用,欢迎加入“智源社区-预训练-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,或点击阅读原文申请加入(选择“兴趣交流群→预训练”)

3fe7a679e20acb6e9fb4756ef2c3b6ff.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值