《预训练周刊》第13期：CPM-2：大规模经济高效的预训练语言模型、变换器作为编程语言...

智源社区

于 2021-06-24 18:30:00 发布

阅读量1k

点赞数

文章标签：大数据机器学习人工智能深度学习 python

原文链接：http://forms.baai.ac.cn/f/clC1l5

版权

No.13

智源社区

预训练组

预

训

练

研究

观点

资源

活动

关于周刊

超大规模预训练模型是当前人工智能领域研究的热点，为了帮助研究与工程人员了解这一领域的进展和资讯，智源社区整理了第13期《预训练周刊》，从论文推荐、研究动态、资源下载等维度推荐近期发生在预训练模型领域值得关注的信息。

本期周刊，我们选择了12篇预训练相关的论文，涉及图像表示、多标签分类、受控生成、对比学习、变换器形式表示、预训练编码器、表示学习、语言模型、蛋白质表达、图神经网络、蛋白质预测和多模态学习的探索。此外，在研究动态方面，我们选择了5篇预训练资讯，将介绍图神经网络综述、语言模型综述、变换器综述、文本摘要和图像表示等方面的一些最新内容。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）

论文推荐

标题：微软|BEIT: BERT Pre-Training of Image Transformers（BEIT：BERT 图像变换器预训练）了解详情

简介：我们引入了一个自监督的视觉表示模型BEIT，它代表用于图像转换器的双向编码器表示。我们提出一个蒙版图像建模任务来预训练视觉变换器。具体来说，每个图像在我们的预训练中有两个视图，即图像块和视觉标记。我们首先将原始图像“标记”为视觉标记。然后我们随机屏蔽一些图像块并喂给它们进入主干变换器。预训练的目标是恢复原始基于损坏的图像补丁的视觉标记。在对 BEIT 进行预训练后，我们通过附加任务直接微调下游任务的模型参数预训练编码器上的层。

代码地址：https://github.com/microsoft/unilm/tree/master/beit

论文地址：https://arxiv.org/pdf/2106.08254v1.pdf

标题：快手|MlTr: Multi-label Classification with Transformer（MlTr：使用变换器进行多标签分类）了解详情

简介：在本文中，我们指出了三个关键问题基于CNN的方法遇到并探索进行特定的可能性变换器模块来解决它们。我们提出了一个多标签变换器架构（MlTr）由窗口分区、窗口内像素注意力、跨窗口注意力构建，特别是提高了多标签图像分类任务的性能。提议的MlTr显示了最先进的结果在各种流行的多标签数据集上，例如 MS-COCO、Pascal-VOC、NUSWIDE，分别为88.5%、95.8%、65.5%。

代码地址：https://github.com/starmemda/MlTr/

论文地址：https://arxiv.org/pdf/2106.06195v1.pdf

标题：亚马逊｜Zero-Shot Controlled Generation with Encoder-Decoder Transformers（使用编码解码变换器进行零样本控制生成）了解详情

简介：在这项工作中，我们提出了以零样本方式控制基于编码器-解码器转换器的 NLG 模型的新方法。这是通过引入三个控制旋钮来实现的：即在生成时应用于这些模型的注意力偏差、解码器混合和上下文增强。这些旋钮通过直接操纵训练过的 NLG 模型来控制生成过程，以在生成的输出中实现所需的属性。我们表明，这些 NLG 模型不仅对此类操作具有鲁棒性，而且它们的行为可以在不影响其生成性能的情况下进行控制。

论文下载：https://arxiv.org/pdf/2106.06411v1

Hub地址：https://hub.baai.ac.cn/view/8464

标题：德州农工大学、德州大学奥斯汀分校|Self-Damaging Contrastive Learning（自毁对比学习）了解详情

简介：本文提出明确解决这个挑战，通过一个名为自毁对比学习（SDCLR），在不知道类别的情况下自动平衡表示学习。我们的主要灵感来自最近的模型具有难以记忆的样本的现象，并且那些可能会通过网络修剪暴露。更自然地假设长尾样本也由于示例不足，使得模型难以学习得很好。因此，SDCLR的关键创新是创建一个动态的自我竞争模型与目标模型形成对比，这是一个修剪过的后者版本。在训练中，对比这两种模型将导致自适应在线挖掘当前目标模型最容易遗忘的样本，并隐含地强调它们更多在对比损失。跨多个数据集和不平衡设定的大量实验表明，SDCLR显着提高了整体准确度和平衡性。

代码：https://github.com/VITA-Group/SDCLR

论文地址：https://arxiv.org/pdf/2106.02990v1.pdf

标题：Technion、巴宜兰大学、艾伦人工智能研究所|Thinking Like Transformers（像变换器一样思考：变换器作为编程语言）了解详情

简介：我们旨在改变变换器没有对应有限状态机这一点，提出一个计算形式为变换器编码器的模型一种编程语言。我们映射基本变换器编码器的组件——注意和前馈计算——转化为简单的原语，我们围绕这些原语形成了一种编程语言：受限访问序列处理语言 (RASP)。我们展示了 RASP 如何用于为可能的任务编写解决方案可以想象，由变换器学习，以及如何可以训练变换器来模拟 RASP 解决方案。

论文地址：https://arxiv.org/pdf/2106.06981v1.pdf

Hub地址：https://hub.baai.ac.cn/view/8474

标题：MIT、比尔拉理工学院、新加坡国立、Deepmind|Pretrained Encoders are All You Need（您只需要预训练的编码器）了解详情

简介：数据效率和泛化是深度学习和深度强化学习的关键挑战，因为许多模型都是在大规模、特定领域和昂贵的标签数据集上训练的。在大规模未经处理的数据集上训练的自监督模型已成功转移到不同的环境。我们研究在Atari中使用预训练图像表示和时空注意进行状态表示学习。我们还探索使用自监督技术对预训练表示进行微调，即对比预测编码、时空对比学习和增强。我们的结果表明，预训练的表示与最先进的自监督相提并论在特定领域数据上训练的方法。因此，预训练的表示产生数据和计算状态的高效表示。

代码：https://github.com/PAL-ML/PEARL_v1

论文下载：https://arxiv.org/pdf/2106.05139v1.pdf

标题：脸书|Exploring Simple Siamese Representation Learning（探索简单的连体表示学习）了解详情

简介：在本文中，我们报告了令人惊讶的实证结果，简单的连体网络可以学习有意义的表示，即使不使用以下：(1)负样本对，(2)大批次，（3）动量编码器。我们的实验表明对于损失和结构确实存在崩溃的解决方案，但是停止梯度操作在防止崩溃方面起着至关重要的作用。我们提供了一个关于停止梯度的含义的假设，并进一步展示了概念验证实验验证它。我们的“SimSiam”方法实现了ImageNet和下游任务的有竞争力的结果。

论文地址：https://arxiv.org/pdf/2011.10566.pdf

标题：智源|CPM-2: Large-scale Cost-effective Pre-trained Language Models（CPM-2：大规模经济高效的预训练语言模型）

了解详情

简介：近日，以智源学者、清华大学副教授刘知远牵头的“悟道·文源”团队发布的 CPM-2，提出了一套成本效益高的技术，用于使用处理预训练的效率问题，微调和推理。本文介绍了相关的技术细节。 (1) 介绍通过利用现有语言模型来加速预训练过程的知识继承而不是从头开始训练模型。(2)我们探索了使用大规模语言模型进行即时调整的最佳实践。和传统的微调相比、即时调优显着减少了任务特定参数的数量。(3) 我们实现了一个新的推理工具包，即INFMOE，用于大规模使用具有有限计算资源的语言模型。基于我们具有成本效益的管道，我们预训练了两个模型：具有110亿个参数的编码器-解码器双语模型(CPM2)及其对应的1980亿个参数MoE版本。

代码地址：https://github.com/TsinghuaAI/CPM

论文地址：https://arxiv.org/pdf/2106.10715.pdf

标题：麻省理工 | Learning the protein language: Evolution, structure, and function（学习蛋白语言：进化，结构和功能）

了解详情

简介：本文为Bepler et al发表在Cell上新作。蛋白预训练语言模型可以将氨基酸序列编码为矢量表征，以捕捉其结构和功能特性，并评估序列突变体的进化适应性。仅从现有的序列数据中，这些模型可以学习整个蛋白质空间的进化、结构和功能区域。本文讨论了蛋白质语言模型的最新进展以及它们在下游蛋白质属性预测问题上的应用。作者考虑了如何用先前的生物知识来丰富这些模型，并介绍了一种将蛋白质结构知识编码到所学蛋白语言表征中的方法。这些模型提炼出的知识能够通过迁移学习改善下游的功能预测，在蛋白数据库搜索，透膜区域预测和表型预测上均取得了优秀的结果。

论文地址：https://www.cell.com/cell-systems/fulltext/S2405-4712(21)00203-9#%20

标题：芝加哥丰田计算技术研究所 | Accurate Protein Function Prediction via Graph Attention Networks with Predicted Structure Information（通过基于结构信息的图注意力网络进行准确的蛋白质功能预测）了解详情

简介：在这项研究中，作者提出了GAT-GO，一种整合了预测的残基间接触图、蛋白质嵌入和序列特征以用于蛋白质功能预测的深度学习方法。本文使用RaptorX来预测蛋白质序列的结构信息，使用Facebook的ESM-1b预训练语言模型来生成蛋白质序列的残基级和序列级嵌入。GAT-GO通过学习高分辨率的结构信息和高容量的预训练的蛋白质嵌入，能够利用局部和整体信息，超越了现有的功能预测方法。本文的实验表明，蛋白质嵌入和预测的接触图，以及基于GAT的模型结构，都可以显著提高功能预测效果。

论文地址：https://www.biorxiv.org/content/10.1101/2021.06.16.448727v1.full

标题：深圳湾实验室等 | SPOT-Contact-Single: Improving Single-Sequence-Based Prediction of Protein Contact Map using a Transformer Language Model, Large Training Set, and Ensembled Deep Learning（SPOT-Contact-Single: 使用Transformer语言模型、大型训练集和集成深度学习改进基于单序列的蛋白质接触图预测）了解详情

简介：大多数蛋白接触图的预测方法依赖于蛋白质序列的进化信息，而许多蛋白质由于缺乏序列同源性，可能不存在这种信息。因此，本文开发了一个接触图预测器，利用预训练的语言模型ESM-1B，伴以大型数据集训练及残差神经网络的集成。本文表明，所提出的方法比基于单序列的预测器SSCpred有明显的改进，在独立的CASP14-FM测试集上，F1分数提高了15%。新方法提供了一个比基于profile的方法更快、更准确的替代方法，特别是对大规模预测非常有用。

论文地址：https://www.biorxiv.org/content/10.1101/2021.06.19.449089v1.full.pdf

标题：中山大学等 | X-DPI: A structure-aware multi-modal deep learning model for drug-protein interactions prediction（X-DPI: 用于药物-蛋白质相互作用预测的结构感知的多模态深度学习模型）了解详情

简介：识别药物-蛋白质相互作用（DPI）在药物发现中是至关重要的，本文为此提出了一个新的结构感知多模态DPI预测模型，X-DPI。作者首先为DPI预测建立了一个高质量的基准数据集，名为GalaxyDB，然后为了获得蛋白质的信息，从蛋白质序列中构建了一个结构感知的图神经网络。通过进一步整合基于分子结构的表征以及针对分子和蛋白质的预训练模型嵌入，模型更有效地捕获了分子蛋白之间相互作用的特征表征。结果上，X-DPI超过了最先进的DPI预测方法。此外，本文的模型是一个可解释的模型，可以准确地揭示分子和蛋白质之间的结合位点。

论文地址：https://www.biorxiv.org/content/10.1101/2021.06.17.448780v1.full.pdf

研究动态

标题：京东、伦斯勒理工学院、浙大｜Graph Neural Networks for Natural Language Processing: A Survey（基于图神经网络的自然语言处理：综述）了解详情

简介：在本次综述中，我们全面概述了用于自然语言处理的图神经网络。我们提出了一种新的NLP-GNN分类法，它沿三个轴系统地组织了 NLP 的 GNN 现有研究：图构建、图表示学习和基于图的编码器-解码器模型。我们进一步介绍了大量利用 GNN 功能的 NLP 应用程序，并总结了相应的基准数据集、评估指标和开源代码。最后，我们讨论了充分利用 GNN 进行 NLP 的各种突出挑战以及未来的研究方向。

论文地址：https://arxiv.org/pdf/2106.06090v1

标题：清华、人大、复旦等|Pre-Trained Models: Past, Present and Future（预训练模型：过去、现在和未来）了解详情

简介：我们深入研究了预训练的历史，特别是它与迁移学习和自监督学习，揭示大规模预训练模型在AI 中的关键地位。此外，我们全面回顾了最新的突破大规模预训练模型。这些突破是由计算能力的激增和数据可用性的增加，朝着四个重要方向发展：设计有效的架构、利用丰富的上下文、提高计算效率以及进行解释和理论分析。最后，我们讨论了一系列开放性问题和研究大规模预训练模型的方向，希望我们的观点能够启发和推动大规模预训练模型的未来研究。

论文地址：https://arxiv.org/pdf/2106.07139.pdf

标题：Transformer模型有多少种变体？复旦邱锡鹏教授团队做了全面综述了解详情

简介：自 2017 年 6 月后，Transformer 已经成为自然语言处理领域的主流模型，基于 Transformer 的预训练语言模型更是成为主流。随着时间的推移，Transformer 还开始了向其他领域的跨界。到目前为止，研究者已经提出了大量且种类驳杂的 Transformer 变体，但是仍然缺失系统而全面的 Transformer 变体文献综述。去年，谷歌发布的论文《Efficient Transformers: A Survey》对高效 Transformer 架构展开了综述，但主要关注 attention 模块的效率问题，对 Transformer 变体的分类比较模糊。近日，复旦大学计算机科学技术学院邱锡鹏教授团队对种类繁多的 X-former 进行了综述，正好弥补了这一空缺。

标题：预训练+微调、模型集成、文本规范化技术，助百度荣获：MEDIQA 2021医学放射报告摘要国际评测冠军了解详情

简介：人工智能技术的发展，促进了自然语言处理与知识图谱技术在生物医学领域的应用。近日，国际计算语言学学会旗下的顶级国际学术会议NAACL 2021正式举行，百度夺得MEDIQA 2021医学放射报告摘要国际评测冠军。MEDIQA 2021评测以生物医学文本摘要为主题，由NAACL的BioNLP研讨会组织开展。在医学语言理解和知识图谱领域深耕已久的百度以主指标ROUGE-2超出第二名近3个百分点的绝对优势夺冠，同时包揽全部9项测试指标的第一名。据了解，本次评测吸引了来自IBM研究院、卡内基梅隆大学、斯坦福大学、阿里巴巴、腾讯等全球知名企业和机构参与。

标题：20亿参数，大型视觉Transformer来了，刷新ImageNet Top1了解详情

简介：近日，原 ViT 团队的几位成员又尝试将 ViT 模型进行扩展，使用到了包含 30 亿图像的 JFT-3B 数据集，并提出了参数量高达 20 亿参数的 ViT 变体模型 ViT G/14，在 ImageNet 图像数据集上实现了新的 SOTA Top-1 准确率。基于注意力机制的 Transformer 架构已经席卷了 CV 领域，并成为研究和实践中日益流行的选择。此前，Transformer 被广泛用于 NLP 领域。有研究者仔细研究了自然语言处理中 Transformer 最优扩展，主要结论是大型模型不仅性能更好，而且更有效地使用了大量计算预算。然而，目前尚不清楚这些发现在多大程度上能够迁移到视觉领域。在本论文中，集中研究了预训练 ViT 模型用于图像分类任务的迁移性能的扩展规则，其主要贡献是描述 ViT 模型的性能计算边界。

如果你正在从事或关注预训练学习研究、实现与应用，欢迎加入“智源社区-预训练-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，或点击阅读原文申请加入（选择“兴趣交流群→预训练”）

智源社区

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
《预训练周刊》第13期：CPM-2：大规模经济高效的预训练语言模型、变换器作为编程语言...

No.13智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点，为了帮助研究与工程人员了解这一领域的进展和资讯，智源社区整理了第13期《预训练周刊》...
复制链接

扫一扫