《预训练周刊》第47期：屏蔽自编码器、结构化知识注入预训练、ERNIE 3.0

智源社区

于 2022-05-25 17:16:42 发布

阅读量628

点赞数

文章标签：大数据自然语言处理算法编程语言 python

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5ODg0MTAwMw==&mid=2247523272&idx=4&sn=9eda93f7801dd9c681ab096252787a4c&chksm=febcd80cc9cb511aeae47b3780fb8a73ed04879984c08a02ca2e7dbb4bb0d42a472a8d5fe736&scene=126&&sessionid=0

版权

No.47

智源社区

预训练组

预

训

练

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息，《预训练周刊》已经开启“订阅功能”，以后我们会向您自动推送最新版的《预训练周刊》。订阅方法：

方式1：扫描下面二维码，进入《预训练周刊》主页，选择“关注TA”。

方式2：点击本文下方的“阅读原文”，进入《预训练周刊》Hub社区版，根据内附的详细订阅步骤，完成订阅。

关于周刊

本期周刊，我们选择了11篇预训练相关的论文，涉及文本生成、标签分类、视频时空学习、图谱预训练、数值推理、多模态训练、预训练优化、蛋白组学习、蛋白质序列学习、微生物学习和卷积预训练的探索。此外，在研究动态方面，我们选择了3篇预训练资讯，将介绍关系抽取、问答和大模型落地方面的一些最新内容。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）

论文推荐

标题：马萨诸塞大学阿默斯特分校、谷歌|RANKGEN: Improving Text Generation with Large Ranking Models（RANKGEN：使用大型排序模型改进文本生成）了解详情

作者：Kalpesh Krishna, Yapei Chang, John Wieting, Mohit Iyyer

简介：本文研究了文本生成中的字符选择算法。给定一个输入序列（或前缀），现代语言模型通常将高概率分配给重复、不连贯或与前缀无关的输出序列；像这样，模型生成的文本也包含此类序列。为了解决这些问题，作者提出RANKGEN，一种编码器模型（1.2B 参数），它对给定的模型生成进行字首评分。RANKGEN 可以灵活地作为一个评分功能加入到约束搜索中并用于从任何预训练的语言模型中解码。作者使用大规模对比学习来训练 RANKGEN 来映射前缀到它后面的真实序列并且远离两种类型：(1) 来自与前缀相同的文档的随机序列，以及 (2) 从大型语言模型在前缀上生成的序列。四种不同语言模型的实验（345M-11B 参数）和两个领域表明，RANKGEN 显著优于解码算法，如核函数、top-k 和典型采样自动指标（85.0 vs 77.3 MAUVE）为以及对英语作家的人工评价（74.5% 的人工偏好高于核采样）。

地址下载：https://github.com/martiansideofthemoon/rankgen

论文下载：https://arxiv.org/pdf/2205.09726v1.pdf

标题：Meta|Open Vocabulary Extreme Classification Using Generative Models(使用生成模型的开放词汇极端分类)了解详情

作者:Daniel Simig, Fabio Petroni, Majid Yazdani等

简介：本文介绍了一种极端多标签分类（XMC）任务，旨在标记超大标签集的子集标记。标签词汇表通常是提前定义的由领域专家和假定捕获所有必要的标记。然而，在现实世界中，这个标签集虽然很大，但往往是不完整的，专家经常需要改进它。为了开发简化此过程的系统，作者引入了开放词汇表XMC（OXMC）的任务：给定一段内容，预测一组标签，其中一些可能位于已知标记集之外。因此，在除了没有某些人的训练数据标签，就像零次分类中的情况一样，模型需要即时发明一些标签。作者提出GROOV，一个微调的端到端OXMC的模型，该模型将标签集生成为平面序列，并使用独立于预测标签顺序的新型损失。作者展示了该方法的有效性，试验流行的XMC数据集GROOV能够在给定词汇表之外预测有意义的标签，同时对于已知标签与最先进的解决方案相媲美。

论文下载：https://arxiv.org/pdf/2205.05812v1.pdf

标题：FAIR|Masked Autoencoders As Spatiotemporal Learners(屏蔽的自动编码器作为时空学习器)了解详情

作者：Christoph Feichtenhofer, Haoqi Fan, Yanghao Li, Kaiming He

简介：本文研究了从视频中学习时空表示，将屏蔽自动编码器（MAE）的概念进行简单扩展。作者随机屏蔽视频中的时空补丁，并学习自动编码器以像素为单位重建它们。有趣的是，作者证明了作者的MAE方法可以学习强表示。在时空中几乎没有嵌入感应偏差（只有补丁和位置除外），与时空无关的随机屏蔽表现最佳。作者观察到最佳屏蔽率高达90%（图像上为75%），支持该比率与数据。高屏蔽比可带来较大的加速，例如，时间上大于4倍甚至更多。作者在几个具有挑战性的视频数据集上报告了与使用朴素视觉变换器的竞争性结果。作者观察到MAE监督预训练以很大的优势可以跑赢大盘。

论文下载：https://arxiv.org/pdf/2205.09113v1.pdf

标题：洛桑联邦理工学院、谷歌|SKILL: Structured Knowledge Infusion for Large Language Models（SKILL：大型语言模型的结构化知识注入）了解详情

作者：Fedor Moiseev, Zhe Dong, Enrique Alfonseca, Martin Jaggi

简介：本文介绍了融合知识图谱与文本的语言模型训练算法。大型语言模型（LLM）已经在自然语言任务的范围展示了人类水平的性能。然而在很大程度上，他们能否从结构化的知识中更好地内化知识和数据，如知识图谱或来自文本的数据，这在很大程度上是未被探索的。作者通过直接将结构化知识转化为LLM在知识图谱（GG）的事实三元组上训练T5模型。使用作者的方法在维基数据KG上预训练的模型优于FreebaseQA、WikiHop、维基数据TriviaQA和NaturalQuestions上的T5基线。这在事实三元组比较上预训练模型与与包含相同知识的自然语言句子上的句子竞争。在较小尺寸的KG，WikiMovies上进行训练后，作者看到了在MetaQA任务的匹配分数基线上，与 T5 相比有3倍精确度的改进，所提方法的优点是图谱和文本语料库训练数据知识之间不需要对齐，这使得作者的方法在处理大规模工业知识图谱时特别有用。

论文下载：https://arxiv.org/pdf/2205.08184v1.pdf

标题：UKP实验室、德国达姆施塔特大学、谢菲尔德大学| Improving the Numerical Reasoning Skills of Pretrained Language Models(提高预训练语言模型的数值推理能力)了解详情

作者：Dominic Petrak, Nafise Sadat Moosavi, Iryna Gurevych

简介：本文以推理感知的新方法研究预训练语言模型的数值推理能力的提高。对数字进行推理的任务时，最先进的预训练语言模型往往表现不佳。主要因为:（1）流行的标记化算法针对常用词进行了优化，因此对数字的表达能力有限；（2）常见的预训练目标根本不针对数字推理或理解数字。在本文中，作者提出了一种新的扩展预训练方法，称为推理感知预训练，以共同解决这两个缺点，而无需更改架构或从头开始进行预训练。使用对比学习，作者的方法将另一种数字表示纳入已经预训练的模型中，同时通过对称为可推断数字预测任务的新型预训练目标进行训练来提高其数值推理能力。作者在 DROP 和 InfoTabs 上的结果表明，作者的方法在这些数据集上分别提高了 9.6 和 33.9 个点的准确性。

论文下载：https://arxiv.org/pdf/2205.06733

标题：腾讯 | One Model, Multiple Modalities: A Sparsely Activated Approach for Text, Sound, Image, Video and Code（一个模型多个模态：文本、声音、图像、视频和代码的稀疏激活方法）了解详情

作者：Yong Dai, Duyu Tang, Liangxin Liu,等

简介：本文研究多模态统一模型的稀疏激活方法。大多数现有的人工智能系统只处理一个单独的模态。本文提出了一种方法，该方法擅长使用单个模型处理多种信息模式。在作者的SkillNet模型中，参数的不同部分专门用于处理不同的模态。与总是激活所有模型参数的传统密集模型不同，作者的模型稀疏地激活与任务相关的部分参数。这样的模型设计使 SkillNet 能够以更可解释的方式学习技能。作者为五种模式开发作者的模型，包括文本、图像、声音、视频和代码。结果表明，SkillNet 的性能与五种特定于模态的微调模型相当。此外，作者的模型支持以相同的稀疏激活方式进行自我监督预训练，从而为不同的模态提供更好的初始化参数。作者发现预训练显著提高了 SkillNet 在五种模态上的性能，与特定模态预训练的基线相当甚至更好。

论文下载：https://arxiv.org/pdf/2205.06126

标题：Allen AI、Arrive Bio公司 | Extracting Latent Steering Vectors from Pretrained Language Models（从预训练的语言模型中提取潜在的转向向量）了解详情

作者：Nishant Subramani , Nivedita Suresh , Matthew E. Peters

简介：本文以崭新视角研究通过潜在的转向向量提升预训练模型的性能。先前关于可控文本生成的工作集中在学习如何通过可训练的解码、智能提示设计或基于期望目标的微调来控制语言模型。作者假设引导模型生成目标句子所需的信息已经在模型中编码。因此，作者完全探索了一种不同的方法：直接从预训练的语言模型解码器中提取潜在向量，无需微调。实验表明：存在转向向量，当添加到语言模型的隐藏状态时，可以为来自各种领域的英语句子生成几乎完美的目标句子。作者展示了向量算法可用于 Yelp 情绪基准上的无监督情绪转移，性能可与为此任务量身定制的模型相媲美。作者发现，在文本相似度基准STS-B上评估时，转向向量之间的距离反映了句子相似度，优于模型的池化隐藏状态。最后，作者对转向向量的内在特性进行了分析。

论文下载：https://arxiv.org/pdf/2205.05124

标题：贝尔法斯特女王大学 | Deep_Learning_of_Proteomics_Data（蛋白组学数据的深度学习）了解详情

作者：Lennox Mark

简介：本文介绍了预训练在蛋白组学的应用。作者考虑了人工智能和数据驱动分析的情况下，阻碍计算生物学应用中的障碍。作者在多个场景上分析了预训练和NLP的应用，本文的子词算法比之前预训练的Doc2Vec模型提供了更好的整体性能。本文也采用计算机视觉领域的方法，从最少的蛋白质组数据创建一个深度学习模型，将CNN和transformer结合起来，建立了一个最先进的磷酸化位点模型。本文综合评估了如何应用预训练和度量学习于一系列下游蛋白质任务。具体而言，作者采用triplet BERT对每个数据集的BERT模型进行微调，并评估其在一组下游任务预测上的性能。作者还可视化了该模型如何处理蛋白质的特定部分，并检测改变其整体功能的关键修饰。最后本文再次展示了预训练的价值，通过使用两个预训练的BERT模型和一个图卷积网络，解决药物-靶标相互作用任务。

论文下载：https://pureadmin.qub.ac.uk/ws/portalfiles/portal/257918017/Deep_Learning_of_Proteomics_Data.pdf

标题：牛津、哈佛等 | RITA: a Study on Scaling Up Generative Protein Sequence Models（RITA：关于扩大生成式蛋白质序列模型的研究）了解详情

作者：Daniel Hesslow, Debora Marks等

简介：本文介绍了用于蛋白质序列的自回归生成预训练模型RITA。它有多达12亿个参数，在属于UniRef-100数据库的超过2.8亿个蛋白质序列上进行解码器Transformer模型训练，这种生成模型有望大大加快蛋白质的设计。本文首次系统地研究了蛋白质领域的自回归Transformer的能力是如何随模型大小而发展的，并且评估了RITA模型在下一个氨基酸预测、零样本适应性和酶功能预测中的作用，显示了扩大模型规模的优点。另外本文研究是否有可能通过利用prompt-funing为预训练的蛋白质序列模型增加可控生成。最后看到在prompt-funing下，困惑度明显降低，表明该模型确实能够学习生成这个蛋白质家族的蛋白质。

论文下载：https://arxiv.org/pdf/2205.05789.pdf

标题：罗格斯大学等 | Deep learning of a bacterial and archaeal universal language of life enables transfer learning and illuminates microbial dark matter（对细菌和古生物通用生命语言的深度学习实现了迁移学习并照亮了微生物的暗物质）了解详情

作者：A. Hoarfrost, A. Aptekmann, G. Farfañuk & Y. Bromberg

简介：本文介绍了DNA的预训练在微生物领域的应用。当前描述微生物系统的计算方法依赖于无法充分捕捉微生物生命树的功能多样性的不完整数据库，从而限制了科学家对生物序列的高级特征进行建模的能力。本文介绍了 LookGlass，一种预训练模型，它编码短 DNA 读数的上下文感知、功能和进化相关的表示，可以区分不同功能、同源性和环境来源的读数。本文证明了 LookGlass 通过迁移学习进行微调以执行一系列不同任务的能力，识别新的氧化还原酶、预测酶的最佳温度以及识别 DNA 序列片段的阅读框。LookGlass 可以对其他未知和未注释的序列进行功能相关的表示，从而揭示主导地球生命的微生物暗物质。本文也特别强调需要为特定的下游应用确定最有效的预训练模型，以更好地服务于科学界。

论文下载：https://www.nature.com/articles/s41467-022-30070-8

标题：微软 | Convolutions are competitive with transformers for protein sequence pretraining（在蛋白质序列预训练中卷积与Transformer相比具有竞争力）了解详情

作者：Kevin K Yang, Alex X Lu, Nicolo K Fusi

简介：本文介绍了蛋白卷积预训练。预训练的蛋白质序列语言模型在很大程度上依赖于Transformer的结构。然而，Transformer的运行时间和内存要求随着序列长度的增加而呈四次方变化。本文研究了基于卷积的架构在蛋白质序列遮蔽语言模型预训练和后续微调中的潜力。在预训练任务中，CNN与Transformer竞争力，同时资源需求与序列长度呈线性关系。更重要的是，在下游评估中CNN具有竞争力，有时甚至优于Transformer，包括结构预测、零样本突变效应预测和域外泛化。由于CARP的计算量与输入序列呈线性依赖，并且不依赖于输入的位置嵌入，因此可以直接应用于比长序列更长的序列。本文强调经验性的结果表明，需要通过分解结构和预训练任务的影响来加深本文对蛋白质序列预训练的理解。

论文下载：https://doi.org/10.1101/2022.05.19.492714

研究动态

标题：北理工、华中科技 | Relational Triple Extraction: One Step is Enough（关系三元组提取：一步到位）了解详情

作者：Yu-Ming Shang, Heyan Huang, Xin Sun, Wei Wei, Xian-Ling Mao

简介：基于预训练模型作为句子编码器、本文以全新的视角研究解决“关系抽取中的错误累积问题”。从非结构化文本中提取关系三元组是自然语言处理和知识图谱构建中的一项基本任务。现有方法通常包含两个基本步骤：（1）找到头尾实体的边界位置；(2) 连接特定标记以形成三元组。然而，几乎所有以前的方法都存在误差累积的问题，即步骤（1）中每个实体的边界识别误差将累积到最终形成的三元组中。为了解决这个问题，在本文中作者引入了一个全新的视角来重新审视三元组提取任务，并提出了一个简单但有效的模型、名为 DirectRel。具体来说，所提出的模型首先通过枚举句子中的标记序列来生成候选实体，然后将三元组提取任务转化为“头→尾”双向图上的链接问题。通过这样做，只需一步即可直接提取所有三元组。实验结果表明模型获得SOTA效果。

论文下载：https://arxiv.org/pdf/2205.05270

标题：麻省大学 | Downstream Transformer Generation of Question-Answer Pairs with Preprocessing and Postprocessing Pipelines（具有预处理和后处理管道的问答对下游Transformer生成）了解详情

作者：Cheng Zhang, Hao Zhang, Jie Wang

简介：本文提出了一个称为 TP3 的系统来执行Transformer的下游任务，以从给定的文章中生成问答对 (QAP)。TP3 首先在 QAP 数据集上对预训练的Transformer进行微调，然后使用预处理管道选择合适的答案，将相关句子和答案提供给微调后的Transformer以生成候选 QAP，最后使用后处理管道过滤不充分的 QAP。特别是，使用预训练的 T5 模型作为Transformer，使用 SQuAD 数据集作为微调数据集，作者表明 TP3 在高考-EN 数据集上生成了数量令人满意的高质量 QAP。

论文下载：https://arxiv.org/pdf/2205.07387

标题：大模型产业落地关键战打响！百度首发行业大模型，外加一口气十连发了解详情

简介：时隔仅半年百度再发10个大模型。NLP大模型新增了ERNIE 3.0 Zeus，一个任务知识增强千亿级大模型，可以使用统一的接口和方式同时处理各类应用任务，包括开放问答、信息抽取、情感分析、语义匹配等。跨模态大模型包括ERNIE-SAT，语音-语言跨模态大模型以及ERNIE-GeoL，地理-语言跨模态大模型。CV大模型包括3个，VIMER-UFO 2.0，参数规模170亿，是业界规模最大的多任务统一视觉大模型；VIMER-UMS，可以通过融合编码来学习图像及其相应文字的统一表征；VIMER-StrucTexT 2.0，可以融合学习“语义”和“结构”信息，支持文档图像理解的全场景任务。生物计算大模型包括两个：HELIX-GEM，它融合了几何级别的自监督学习策略，学习化合物键长、键角等空间结构知识，提升化合物性质预测的效果；HELIX-Fold，是蛋白结构分析大模型，在国产DCU环境，可以将千万级别蛋白的训练时间从AlphaFold2的7天缩短到2.6天。