《预训练周刊》第30期:谷歌首次展示新版语言模型BERT,参数达4810亿个

No.30

智源社区

预训练组

95bedc18b5fae93b12206b771a9c13f5.png

研究

观点

资源

活动

关于周刊

本期周刊,我们选择了9篇预训练相关的论文,涉及文本更正、模型适配、实体标记、视频理解、三维建模、行人识别、医学实体识别、分子分布和目标检测的探索。此外,在研究动态方面,我们选择了1篇预训练资讯,将介绍大语言模型方面的一些最新内容。最后,在资源推荐方面,我们选择了1篇预训练资源,将介绍生物医学实验方面的一些最新资源。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

(本期贡献者:申德周 翟珂 吴新刚)

1bb07b3915b7e621efde66b1d0025f3f.png

8bc99ee4dfd8f5ddc2fda320b9e7981e.png

124b502e7ebb9d44f07355c17a9231d6.png

138178ad09374e9d8a2956606e6acc0f.png

230e2820dec3f921850330b0fbc59259.png

论文推荐

标题:伊利诺伊大学、微软|COCO-LM: Correcting and Contrasting Text Sequences for Language Model Pretraining(COCO-LM:用于语言模型预训练的更正和对比文本序列)了解详情

作者:Yu Meng、Jiawei Han、Xia Song等

简介:本文提出了一种自然语言理解的预训练模型。作者提出了一个自监督学习框架COCO-LM,它通过纠正和对比损坏的文本序列来预训练语言模型。下列的ELECTRA 式的预训练,COCO-LM采用了辅助语言模型破坏文本序列,在此基础上构建两个新的预训练任务主要型号。第一个符号级任务,纠正语言建模,是检测并纠正辅助模型替换的符号,以便更好地捕获符号级语义。第二个序列级任务,序列对比学习,是对齐源自相同源输入的文本序列,同时确保表示空间的一致性。在GLUE和SQuAD上的实验证明COCO-LM不仅优于最近最先进的预训练模型的准确性,也提高了预训练效率。它实现了MNLI、ELECTRA的准确率及其50%的预训练 GPU小时数。在标准基础/大型模型的预训练步骤中,COCO-LM优于以前的最佳模型GLUE平均1+分。

论文地址:https://arxiv.org/pdf/2102.08473.pdf

标题:MIT、Meta AI|Quantifying Adaptability in Pre-trained Language Models with 500 Tasks(量化具有 500 个任务的预训练语言模型的适应性)了解详情

作者:Belinda Z. Li, Jacob Andreas等

简介:本文研究了预训练语言模型的迁移性能。当语言模型适应执行新任务,任务的哪些方面可以预测模型的最终性能?在NLP中,LM泛化到单个例子的系统特征,得到了很好的表征,但LM对新的系统适应性方面任务,几乎没有那么好理解。作者对LM适应性的特征和限制进行大规模实证研究新的基准测试,TASKBENCH500,由500个程序生成的序列建模任务。这些任务结合了以下语言处理核心方面,包括词汇语义、序列处理、记忆、逻辑推理和世界知识。使用TASKBENCH500,作者评估了以下三个方面适应性,发现:(1)适应程序的记住小数据集能力差异很大;(2)在一个任务类型子集内,适应程序表现出对复杂任务的组合适应性;和(3)未能匹配训练标签分布,由预测单个标签的内在困难中的不匹配来解释。作者的实验表明,对新任务的适应性,像对新例子的泛化,可以被系统地描述和理解。

代码地址:https://github.com/belindal/TaskBench500

论文地址:https://arxiv.org/pdf/2112.03204v1.pdf

标题:香港科技大学、阿里巴巴 | NER-BERT: A Pre-trained Model for Low-Resource Entity Tagging(低资源实体标记的预训练模型)了解详情

作者:Zihan Liu, Feijun Jiang, Yuxiang Hu,等

简介:本文研究利用预训练语言模型解决数据稀疏的命名实体识别问题。当大型训练数据集不可用于低资源域时,命名实体识别模型通常表现不佳。最近,大规模语言模型的预训练成为应对数据稀缺问题的一个有前途的方向。然而,语言建模和NER任务之间的潜在差异可能会限制模型的性能,并且很少研究 NER 任务的预训练,因为收集的NER数据集通常或大或小但质量低下。在本文中,作者构建了一个质量相对较高的海量NER语料库,并基于创建的数据集预训练了NER-BERT模型。实验结果表明,作者的预训练模型在九个不同领域的低资源场景中可以显着优于BERT以及其他强基线。此外,实体表示的可视化进一步表明了NER-BERT对各种实体进行分类的有效性。

论文地址:https://arxiv.org/pdf/2112.00405.pdf

标题:上海AI LAB、复旦大学、微软 | BEVT: BERT Pretraining of Video Transformers(视频转换器的BERT预训练)了解详情

作者:Rui Wang, Dongdong Chen, Zuxuan Wu,等

简介:本文研究了视频转换器的BERT预训练。鉴于 BERT 图像变换器预训练最近取得的成功,作者引入了 BEVT:将视频表示学习解耦为空间表示学习和时间动态学习。在 Kinetics 400 上,其识别主要依赖于区分性空间表示,BEVT 实现了与强监督基线相当的结果。在包含依赖时间动态的视频的Something-Something-V2 和Diving 48 上,BEVT 的表现明显优于所有替代基线,并分别以 70.6% 和 86.7% 的 Top-1 准确率实现了最先进的性能。对于识别主要依赖于区分性空间表示,BEVT 实现了与强监督基线相当的结果。在包含依赖时间动态的视频的Something-Something-V2 和Diving 48 上,BEVT 的表现明显优于所有替代基线,并分别以 70.6% 和 86.7% 的 Top-1 准确率实现了最先进的性能。对于识别主要依赖于区分性空间表示,BEVT 实现了与强监督基线相当的结果。在包含依赖时间动态的视频的Something-Something-V2 和Diving 48 上,BEVT 的表现明显优于所有替代基线,并分别以 70.6% 和 86.7% 的 Top-1 准确率实现了最先进的性能。

论文地址:https://arxiv.org/pdf/2112.01529.pdf

标题:清华、北大 | Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point Modeling(以遮盖点建模、对3D点云Transformer进行预训练)了解详情

作者:Xumin Yu, Lulu Tang, Yongming Rao, 等

简介:作者研究将BERT的概念推广应用到三维点云的新学习范式。受BERT的启发,作者设计了一个遮盖点建模任务来预训练点云Transformer。具体地作者首先将点云进行分割,得到若干局部点云,并通过一个离散变分自动编码器(dVAE)进行局部点云的离散编码。通过该步骤,点云被表示为若干个离散编码。然后,作者随机屏蔽一些输入点云,并将它们输入主干Transformer。预训练的目标是预测屏蔽位置的局部点云离散编码。大量实验表明:所提出的BERT风格的预训练策略显著提高了标准点云Transformer的性能。通过本预训练策略,实验证明标准Transformer在ModelNet40上达到93.8%的准确率,在ScanObjectNN的最难设置上达到83.1%的准确率,用更少的手工设计和人为先验超过了精心设计的点云模型。作者还证明,Point-BERT学习到的特征表示可以很好地转移到新的任务和领域,模型提高了小样本点云分类任务的最新水平。

代码地址:https://github.com/lulutang0608/Point-BERT

论文地址:https://arxiv.org/pdf/2111.14819.pdf

标题:阿里巴巴 | Self-Supervised Pre-Training for Transformer-Based Person Re-Identification(基于 Transformer 的行人再识别的自监督预训练)了解详情

作者:Hao Luo, Pichao Wang, Yi Xu,等

简介:本文主要从数据和模型角度来研究如何减小预训练数据与ReID数据域差异对Transformer-based行人重识别任务的影响。基于ImageNet强监督预训练的 Transformer-based行人重识别(ReID)方法最近取得了很好的进展,逐渐在性能上超越了CNN-based的方法。然而,由于ImageNet 和 ReID 数据集之间的巨大域差距以及 Transformer 强大的数据拟合能力,基于Transformer的方法通常需要更大的预训练数据集来提升性能。为了应对这一挑战,本研究旨在分别从数据和模型结构的角度缩小预训练和 ReID 数据集之间域差异带来的影响。作者在大规模的无标签行人图像数据集对 Vision Transformer进行自监督学习预训练,实验发现该预训练范式明显优于ImageNet 监督预训练。经过在监督学习、无监督域适应和无监督学习设置下微调预训练模型的大量实验,作者在不损失性能的前提下将 LUPerson 数据集缩小到 50%。最后作者在 Market-1501 和 MSMT17数据集 上实现了最先进的性能。

论文地址:https://arxiv.org/pdf/2111.12084.pdf

标题:清华、北大、华盛顿大学等 | GraphPrompt: 使用基于图的提示模板的生物医学实体规范化(GraphPrompt: Biomedical Entity Normalization Using Graph-based Prompt Templates)了解详情

作者:Jiayou Zhang, Sheng Wang等

简介:生物医学实体的规范化有助于生物医学实验和研究的语言的统一,并进一步获得生命科学的整体观点。目前的方法主要集中于比较标准化的实体,如疾病和药物的规范化,而忽略了比较模糊但关键的实体,如通路、功能和细胞类型,这阻碍了它们的应用。针对此本文首先引入了一个由专家策划的数据集OBO-syn,其中包括70种不同类型的实体和200万个策划的实体-同义词对。为了利用这个数据集的独特的图结构,本文提出了GraphPrompt,一种基于提示的学习方法,根据图创建提示模板。Graph-Prompt在零样本和小样本场景上分别获得了41.0%和29.9%的改进,表明这些基于图的提示模板的有效性。本文设想,GraphPrompt和OBO-syn数据集可以广泛地应用于基于图的NLP任务,并作为分析多样化的生物医学数据的基础。

论文地址:https://doi.org/10.1101/2021.11.29.470486

标题:多伦多大学 | 保持简单:语言模型可以学习复杂的分子分布(Keeping it Simple: Language Models can learn Complex Molecular Distributions)了解详情

作者:Daniel Flam-Shepherd, Kevin Zhu, Alán Aspuru-Guzik

简介:预训练的分子深度生成模型往往被用来搜索化学空间,评价其在新功能化合物的逆向设计中的下游效用的标准往往取决于它们学习分子训练分布的能力。在生成模型中,最简单的语言模型采用了循环神经网络,用字符串表征生成分子;更复杂的图生成模型按顺序构建分子图,通常能取得最先进的结果。然而,最近的工作表明,语言模型的能力比曾经认为的更强,特别是在低数据体系下。在这项工作中,作者研究了语言模型学习分子分布的能力。为此,本文引入了三个具有挑战性的需要编译特别复杂的分子分布的生成性建模任务,惩罚性LogP任务、多分布任务和大型任务。在每个任务中,本文将语言模型的能力与两个广泛使用的图生成模型相比较进行评估。结果表明,语言模型能够熟练地学习复杂的分子分布,并产生比图模型更好的性能。

论文地址:https://arxiv.org/abs/2112.03041v1

标题:浙江大学 | 低样本目标检测的深度学习综述(A Survey of Deep Learning for Low-Shot Object Detection)了解详情

作者:Qihan Huang, Mingli Song等

简介:目标检测是计算机视觉和图像处理的一项基本任务。虽然基于深度学习的目标检测器在丰富的标记数据下取得了很大的成功,但是当训练数据有限时,物体检测模型很容易过拟合。因此,有必要在物体检测中引入小样本学习和零样本学习,可以一起命名为低样本目标检测。低样本物体检测(LSOD)旨在从少数甚至零标记的数据中检测物体,它可以分为小样本物体检测(FSOD)和零样本目标检测(ZSD)。本文对基于预训练和深度学习的FSOD和ZSD进行了全面综述,主要包含三部分,首先将FSOD和ZSD的方法分为不同类别,并讨论了它们的优点和缺点;其次回顾了FSOD和ZSD的数据集设置和评估指标,然后分析了不同方法在这些基准上的表现;最后讨论了FSOD和ZSD的未来挑战和有希望的方向。

论文地址:https://arxiv.org/abs/2112.02814v1

73a2504ce1b3220d30ad4ccfe81f927e.png

2e5546553f8732305c4dce62c88299a9.png

5226a5235d530a88f7dad7f52c8b828b.png

f305f3a9d7eb49d2fcc0518ed62da49b.png

cfe568014afb7ebe8c69a3e0af268bd9.png

研究动态

标题:谷歌首次展示新版语言模型BERT,参数达4810亿个了解详情

简介:谷歌近日展示了其训练大语言模型的能力。新的BERT程序规模比通行的BERT标准版本大了3个数量级,神经网络参数达到481 亿个,而标准版BERT只有3.4亿个参数。为了得到更大的BERT模型,谷歌使用的计算机搭载了2048个TPU芯片。谷歌还说,其能够以63%的效率运行庞大的BERT模型,这比英伟达和微软共同开发的Megatron-Turing语言模型52%的效率要好。

11ae087a680d5bf4477e7e070cbfc217.png

102a6861ed992bd73bd7cfe128c77704.png

56ff01aa57f5f26ebefaba3f93c2fa46.png

26dc477991b71b36eacf50f65c81c41c.png

1ef47975cb34ea7b07bdc901aeec36ca.png

资源分享

标题:东京大学 | LEXAS:一个用于生命科学实验搜索和建议的网络应用(LEXAS: a web application for life science experiment search and suggestion)了解详情

作者:Kei K Ito, Yoshimasa Tsuruoka, Daiju Kitagawa

简介:在细胞生物学中,研究人员往往通过阅读相关文章和考虑描述的实验和结果来设计湿实验。为了加速实验计划,本文开发了一个名为LEXAS的应用,它整理了生物医学实验的描述并可以建议接下来可以进行的实验。该方法首先从PMC的生物医学文章的全文中检索实验描述,搜集这些检索到的实验和生物医学知识库和数据库,利用预训练模型抽取关系来建议下一个实验。该工具不仅可以准确搜索文献中描述的生物医学的实验,而且可以建议新的基因作为下一个实验的靶点。

论文地址:https://doi.org/10.1101/2021.12.05.471323

7bcdb9e9da87dc5c3f0cc59a3eba26fe.png

如果你正在从事或关注预训练学习研究、实现与应用,欢迎加入“智源社区-预训练-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,或点击阅读原文申请加入(选择“兴趣交流群→预训练”)

19a02a5f1eb140e913074f0c6b330d49.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值