《预训练周刊》第51期：无重构预训练、零样本自动微调、一键调用OPT

智源社区

于 2022-06-29 18:00:42 发布

阅读量542

点赞数

文章标签：大数据算法编程语言 python 计算机视觉

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5ODg0MTAwMw==&mid=2247527527&idx=2&sn=f47f9c61946d8437562a90882451589d&chksm=febc2fa3c9cba6b5b84079fd9a73b5e2baff291fafc4380ae41e77d5d018c7812957bab053dd&scene=126&&sessionid=0

版权

No.51

智源社区

预训练组

预

训

练

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息，《预训练周刊》已经开启“订阅功能”，以后我们会向您自动推送最新版的《预训练周刊》。订阅方法：

方式1：扫描下面二维码，进入《预训练周刊》主页，选择“关注TA”。

方式2：点击本文下方的“阅读原文”，进入《预训练周刊》Hub社区版，根据内附的详细订阅步骤，完成订阅。

关于周刊

本期周刊，我们选择了9篇预训练相关的论文，涉及重构预训练、预训练优化、抗体预测、蛋白可控生成、知识增强、预训练微调、自适应分类和推荐系统的探索。此外，在研究动态方面，我们选择了6篇预训练资讯，将介绍多模态、自适应图像预训练、多模态生成、模型结构探讨、自适应图像学习和大模型理论方面的一些最新内容。最后，在资源分享方面，我们选择了3篇预训练资源，将介绍生成训练框架、代码生成和语义分析评价方面的一些最新内容。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）

论文推荐

标题：CMU | reStructured Pre-training（重构预训练）了解详情

作者：Weizhe Yuan, Pengfei Liu

简介：本文提出一种新预训练范式，重构预训练。作者提出了一种访问包含各种类型信息数据的新方法，这些信息可以作为指导模型进行参数优化的预训练信号，并以信号为单位结构化地表示数据。本文认为有价值的信号丰富地存在于世界各类的数据中，而不是简单地存在于人工管理的监督数据集中，研究人员需要做的是识别数据，用统一的语言重组数据，将它们集成并存储到预训练语言模型中，作者称这种学习范式为重构预训练（RST）。该范式重新重视数据的作用，并将模型预训练和下游任务的微调视为数据的存储和访问过程。RST 模型不仅在来自各种 NLP 任务（例如分类、信息抽取、事实检索、文本生成等）的 52/55 流行数据集上表现大幅超过现有最好系统，而且无需对下游任务进行微调。另外本文所提出的高考 AI 比学生的平均分数高出 40 分，在高考英语考试中也取得了优异的成绩

论文下载：https://arxiv.org/pdf/2206.11147.pdf

标题：UCLA | Generative Pretraining for Black-Box Optimization（用于黑盒优化的生成式预训练）了解详情

作者：Siddarth Krishnamoorthy, Satvik Mehul Mashkaria, Aditya Grover

简介：本文介绍了预训练与黑盒优化问题的结合。科学和工程领域的许多问题涉及到在高维空间上优化一个昂贵的黑盒函数。对于这样的黑箱优化（BBO）问题，通常假设在线函数评估的预算很小，但也经常可以获得一个固定的离线数据集进行预训练。本文提出了黑盒优化转化器（BOOMER），一个使用离线数据集预训练黑盒优化器的生成框架。BOOMER训练一个自回归模型来模仿黑盒函数优化器的轨迹运行。由于这些轨迹在默认情况下是不可用的，本文开发了一个简单的随机启发式方法，通过对离线数据的随机点进行分类来合成轨迹。本文从理论上表明，这种启发式方法诱导出的轨迹模仿了从不同的探索到开发样本的过渡过程。此外，本文引入了控制轨迹从探索到开发的速度的机制，并利用它在测试时在离线数据之外进行泛化。BOOMER在评测中性能超越了设计基线。

论文下载：https://arxiv.org/pdf/2206.10786v1.pdf

标题：俄罗斯AIRI研究院等 | SEMA: Antigen B-cell conformational epitope prediction using deep transfer learning（SEMA：利用深度迁移学习进行抗原B细胞构象表征预测）了解详情

作者：Olga L. Kardymon, Nikita V. Ivanisenko等

简介：本文介绍了微调模型在抗体研究中的应用。疫苗设计和免疫治疗药物开发的主要任务之一是预测与抗原三级结构中主要抗体结合位点相对应的B细胞构象表位。到目前为止，已经涌现了多种方法来解决这个问题。然而，对于广泛的抗原，它们的准确性是有限的。本文应用迁移学习方法，使用预训练的深度学习模型来开发模型SEMA，根据抗原序列和三级结构来预测构象的B细胞表位。本文将预训练的蛋白质语言模型ESM-1b和一个反折叠模型ESM-IF1微调，以定量预测抗体-抗原相互作用的特征并区分表位和非表位残基。SEMA在独立的测试集上表现出最佳性能，与同行评议的工具相比AUC为0.76。本文表明，SEMA可以对SARS-CoV-2的RBD结构域中的免疫优势区域进行定量的排序且效果良好。

论文下载：https://doi.org/10.1101/2022.06.20.496780

标题：Nature Machine Intelligence | Controllable protein design with language models（通过语言模型的蛋白可控设计）了解详情

作者：Noelia Ferruz 、 Birte Höcker

简介：本文总结了蛋白质上预训练及生成模型的应用。蛋白质序列在本质上类似于自然语言：氨基酸以多种组合方式排列，形成承载功能的结构，就像字母构成单词和句子承载意义一样。受其在NLP任务中取得的巨大成功的激励，本文预计Transformer将在不久的将来主导自定义蛋白质序列的生成。对蛋白质家族的预训练模型进行微调，将使它们能够用新的序列来扩展它们的家族组库，这些序列可能是高度不同的，但仍有潜在的功能。控制标签的结合，如细胞区系或功能，将进一步使新型蛋白质功能的可控设计成为可能。此外，最近的模型可解释性方法将能够打开 "黑盒子"，从而增强对折叠原理的理解。早期的例子显示了生成性语言模型在设计功能序列方面的巨大潜力。本文认为，使用生成性文本模型来创造新的蛋白质是一个很有前途的、在很大程度上未被开发的领域，并讨论了它对蛋白质设计可预见的影响。

论文下载：https://www.nature.com/articles/s42256-022-00499-z

标题：悉尼麦格理大学、北大、微软 | KnowDA: All-in-One Knowledge Mixture Model for Data Augmentation in Few-Shot NLP（用于 Few-Shot NLP 中数据增强的多合一知识混合模型）了解详情

作者：Yufei Wang，Jiayi Zheng，Can Xu ，等

简介：本文重点研究可用于小样本 NLP 任务的知识混合数据增强。现有的数据增强算法：要么利用与任务无关的启发式规则（如同义词替换），要么使用小型训练集微调通用预训练语言模型（如GPT2）以生成新的合成数据；这些方法具有琐碎的任务特定知识，并且仅限于为简单任务中的弱基线生成低质量的合成数据。本文提出了知识混合数据增强模型 (KnowDA)：一个经过预训练的编码器-解码器LM、使用知识混合训练 (KoMT) 混合各种 NLP 任务，可以从学习到的任务混合中隐含地结合所需的特定任务知识，并通过多个给定的实例快速掌握目标任务的内在合成规律。据作者所知，作者是第一次尝试在数据增强的多任务协同训练中将任务数量扩展到 100+。大量实验表明 KnowDA：(1)在 FewGLUE 基准测试中成功地大幅提高了 Albert 和 Deberta 的性能，优于SOTA数据增强基线；(2)还可以提高小样本 NER 任务的模型性能。

论文下载：https://arxiv.org/pdf/2206.10265.pdf

标题：德国弗莱堡大学、希尔德斯海姆大学等联合 | Zero-Shot AutoML with Pretrained Models（基于预训练模型的零样本AutoML）了解详情

作者：Ekrem Ozturk，Fabio Ferreira，Hadi S. Jomaa 等

简介：本文研究通过元学习方法实现基于预训练模型的零样本自动化机器学习（AutoML）。给定一个新的数据集 D 和一个低计算预算，我们应该如何选择一个预训练模型来微调到 D，并设置微调超参数而不会有过度拟合的风险，特别是在 D 很小的情况下？在这里，作者扩展了AutoML以最好地做出这些选择。作者的领域无关元学习方法学习了一个零样本代理模型，该模型在测试时允许为新数据集 D 选择正确的深度学习 (DL) 管道（包括预训练模型和微调超参数）仅给出描述 D 的琐碎元特征，例如图像分辨率或类数。为了训练这个零样本模型，作者在大量数据集上收集许多 DL 管道的性能数据，并对这些数据进行元训练，以最小化成对排序目标。为推进ChaLearn AutoDL挑战基准，作者在严格时间限制下评估了作者的方法，明显优于所有挑战竞争者。

论文下载：https://arxiv.org/pdf/2206.08476.pdf

标题：北大、加州伯克利大学等联合| Domain-Adaptive Text Classification with Structured Knowledge from Unlabeled Data（基于未标记数据的结构化知识的领域自适应文本分类）了解详情

作者：Tian Li，Xiang Chen，Zhen Dong等

简介：聚焦在领域自适应文本分类领域，本文研究知识注入的新方法。领域自适应文本分类是大规模预训练的一个具有挑战性的问题语言模型，因为它们通常需要昂贵的附加标记数据来适应新领域。现有作品通常无法利用跨域单词之间的隐含关系。在本文中，作者提出了DASK：一种结构化知识域适应的新方法，它通过利用词级语义关系来增强域适应。DASK 首先构建一个知识图谱来捕获目标域中的主干词（与领域无关的词）和非主干词之间的关系。然后在训练期间，DASK 将与枢轴相关的知识图谱信息注入到源域文本中。对于下游任务，这些知识注入文本被输入到能够处理知识注入文本数据的 BERT 变体中。作者在广泛的跨域情感分类任务上验证了 DASK，并观察到 20 个不同域对的基线绝对性能提升高达 2.9%。

论文下载：https://arxiv.org/pdf/2206.09591.pdf

代码下载：https://github.com/hikaru-nara/DASK

标题：Abacus AI、美国马里兰大学 | On the Generalizability and Predictability of Recommender Systems（关于推荐系统的泛化性和可预测性）了解详情

作者：Duncan McElfresh, Sujay Khandagale, Jonathan Valverde,等

简介：本文提出通过预训练的元学习方法研究推荐系统的泛化性和可预测性。最近的工作表明，现代推荐系统算法并不总是比调整好的基线有所改进。在这项工作中，作者首先通过比较 85 个数据集和 315 个指标的 18 种算法和 100 组超参数，对推荐系统方法进行了第一次大规模研究。作者发现最好的算法和超参数高度依赖于数据集和性能指标，然而，每种算法的性能与数据集的各种元特征之间也存在很强的相关性。受此启发，作者提出RecZilla：一种推荐系统的元学习方法，它使用模型来预测新的、看不见的数据集的最佳算法和超参数。通过使用比以前的工作更多的元训练数据，RecZilla 能够在面对新的推荐系统应用程序时大大降低人工参与的水平。

论文下载：https://arxiv.org/pdf/2206.11886.pdf

代码下载：https://github.com/naszilla/reczilla

研究动态

标题：智源|“悟道·文澜”工作登上Nature子刊，多模态迈向通用人工智能了解详情

简介：近日，智源“悟道”大模型项目——“悟道·文澜”团队论文“Towards Artificial General Intelligence via a Multimodal Foundation Model”登上 Nature 子刊《自然·通讯》。“悟道·文澜”团队由中国人民大学文继荣教授牵头。在论文中，团队不仅开发了一个相对资源节约以及方便部署的多模态基础模型，而且在模型可解释性方面进行了尝试。

标题：英伟达提出自适应token的高效视觉Transformer网络A-ViT了解详情

简介：本文提出了一种对不同复杂度图像，自适应调整推理代价视觉Transformer（ViT）的方法——A-ViT。A-ViT通过在推理过程中自动减少网络中处理的视觉Transformer中的token数量来实现这一点。作者为这项任务重新制定了自适应计算时间（ACT），丢弃冗余的空间token。视觉Transformer的结构特性使本文的自适应token缩减机制能够在不修改网络结构或推理硬件的情况下加快推理速度。作者证明了A-ViT不需要额外的参数或子网络，因为本文的方法基于原始网络参数学习能够自适应停止。作者进一步引入了分布先验正则化，与之前ACT方法相比，它可以稳定训练。在图像分类任务（ImageNet1K）中，作者表明提出的A-ViT在过滤信息性空间特征和减少总体计算量方面具有很高的效率。该方法将DeiT-Tiny和DeiT-Small的吞吐量分别提高了62%和38%，准确率仅下降0.3%，大大优于现有技术。

论文下载：https://arxiv.org/pdf/2112.07658.pdf

标题：Parti，谷歌的自回归文生图模型了解详情

简介：作者介绍了Pathways自回归文本到图像模型（Parti），这是一种自回归文本到图像生成模型，可实现高保真照片级真实感图像生成，并支持涉及复杂构图和世界知识的内容丰富的综合。用于文本到图像生成的扩散模型的最新进展，例如Google的Imagen，在研究基准上也显示出令人印象深刻的功能和最先进的性能。Parti和Imagen在探索两个不同的生成模型系列（分别是自回归和扩散）方面是互补的，为这两种强大模型的组合提供了令人兴奋的机会。

标题：谷歌、HuggingFace| 零样本语言模型结构了解详情

简介：从 GPT3 到 Prompt，越来越多人发现大模型在零样本学习（zero-shot）的设定下有非常好的表现。这都让大家对 AGI 的到来越来越期待。但有一件事让人非常疑惑：在2019 年 T5 通过“调参”发现，设计预训练模型时，Encoder-Decoder 的模型结构 + MLM 任务，在下游任务 finetune 效果是最好的。可是在 2202 年的当下，主流的大模型用的都是仅 decoder 的模型结构设计。作者得到一个重磅结论：要是为了模型的 zero-shot 泛化能力，decoder 结构 + 语言模型任务最好；要是再 multitask finetuning，encoder-decoder 结构 + MLM 任务最好。

论文下载：https://arxiv.org/pdf/2204.05832

标题：港科大&华为诺亚|具有可扩展动态路由的自监督预训练范式SDRNet，在分类和检测任务上SOTA！了解详情

简介：作者提出了一种称为可扩展动态路由的新SSL范式，该范式可以训练一次，并使用任务定制的预训练模型有效地部署到不同的下游任务。作者用不同的子网构造SDRnet，并通过数据感知渐进式训练，仅用数据的一个子集训练每个子网。当下游任务到达时，在所有预训练的子网之间进行路由，以获得最佳的子网及其相应的权重。本文的SDR可以在ImageNet上同时训练256个子网，这比在完整ImageNet上训练的统一模型提供了更好的迁移性能，在11个下游分类任务上达到了最先进的平均精度，在PASCAL VOC检测任务上达到了SOTA结果。

代码下载：https://www.aaai.org/AAAI22Papers/AAAI-12678.LiuZ.pdf

标题：Gary Marcus发文：AI研究者需要知道的三个来自语言学家的观点了解详情

简介：不久前，Gary Marcus 和 Elliot Murphy 联合发文，讨论了AI从业者需要从语言学家借鉴的三个方面，包括：参考：词语和句子并不是孤立存在的。语言是关于词语或句子和世界之间的联系，而大型语言模型中的单词序列很缺乏与外部世界的联系。认知模型：一个语言系统的最终目标应该是更新一个持续的但动态的世界感知，而大型语言模型并不产生这样的认知模型，至少没有人能够可靠地利用这种模型。构成性：复杂的整体大多数情况下被系统地按照其各个部分解释，这些部分之间是如何组织的即为构成性。像DALL-E这样的系统在涉及构成性时面临明显的挑战。对这三个因素的关注不足会产生严重的后果，包括：大型语言模型有随着时间的推移而失去连贯性的趋势，堕落到与现实没有明确联系的 "空洞 "语言；大型语言模型在区分真假方面产生困难；模型在避免延续偏见和有毒言论方面产生纠结。

资源分享

标题：FlagAI飞智：AI基础模型开源项目，支持一键调用OPT等模型了解详情

简介：GPT-3、OPT系列、悟道等预训练模型在NLP领域取得了非常瞩目的效果，但是不同代码仓库有着不同实现风格，并且在预训练大模型过程中使用的技术也各不相同，造成了技术鸿沟。FlagAI飞智是一个快速、易于使用和可扩展的AI基础模型工具包。支持一键调用多种主流基础模型，同时适配了中英文多种下游任务。

代码下载：https://github.com/BAAI-Open/FlagAI

标题：AI辅助编程神器GitHub Copilot完全开放，月费10美元，学生和开源项目维护者免费了解详情

简介：所有人都可以下载插件，开始使用Copilot，60天内免费。学生可以在这里申请 GitHub Student Pack 免费使用。开源项目的维护者需要申请是否符合免费资格。面向企业的服务要等到今年更晚开放。

服务地址：https://github.com/features/copilot

标题：微软 | BenchCLAMP: A Benchmark for Evaluating Language Models on Semantic Parsing（评估语义分析语言模型的基准）了解详情

简介：本文提出BenchCLAMP：一个评估约束语言模型解析的基准。BenchCLAMP通过对提示或微调语言模型的约束解码，基于对输入文本的分析评估产生语义输出。预训练的开发人员语言模型目前对分类、跨度提取和自由文本生成任务进行基准测试。由于处理特定任务架构和表示的复杂性，语义分析在语言模型评估中被忽略。最近的工作表明，当输出被限制为有效的语义表示时，从提示或微调的语言模型生成可以很好地进行语义解析。BenchCLAMP 包括用于六个语义解析数据集的上下文无关语法，具有不同的输出含义表示，以及一个受约束的解码接口以生成这些语法所涵盖的输出。作者为每个数据集提供低、中、高资源分割，允许在不同数据机制下准确比较各种语言模型。

论文下载：https://arxiv.org/pdf/2206.10668.pdf