《预训练周刊》第50期：无解码变换器、神经提示搜索、梯度空间降维

智源社区

于 2022-06-23 18:19:39 发布

阅读量406

点赞数

文章标签：大数据算法编程语言 python 计算机视觉

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5ODg0MTAwMw==&mid=2247526947&idx=2&sn=15ccdde408a462df2ba626e8165bcd27&chksm=febc29e7c9cba0f1c2e90f8e880f29f6c59808ba283e2c9b09578ac1c0791f62f1679a1045eb&scene=126&&sessionid=0

版权

No.50

智源社区

预训练组

预

训

练

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息，《预训练周刊》已经开启“订阅功能”，以后我们会向您自动推送最新版的《预训练周刊》。订阅方法：

方式1：扫描下面二维码，进入《预训练周刊》主页，选择“关注TA”。

方式2：点击本文下方的“阅读原文”，进入《预训练周刊》Hub社区版，根据内附的详细订阅步骤，完成订阅。

关于周刊

本期周刊，我们选择了12篇预训练相关的论文，涉及降维学习、大模型性质、视觉提示、对象检测、语言模型、零样本问答、句法分析、语言理解、蛋白质序列、蛋白质表征、蛋白预测和进化预测的探索。此外，在研究动态方面，我们选择了3篇预训练资讯，将介绍语言模型评价、多模态和大模型产业方面的一些最新内容。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）

论文推荐

标题：约翰内斯开普勒大学、Anyline GmbH等|FEW-SHOT LEARNING BY DIMENSIONALITY REDUCTION IN GRADIENT SPACE（梯度空间中小样本降维学习）了解详情

作者：Martin Gauch, Maximilian Beck, Thomas Adler, Sebastian Lehner等

简介：本文介绍了SubGD，一种新颖的小样本学习方法。随机梯度下降更新往往存在于低维参数子空间中。通过实验和理论分析，作者表明模型被限制在合适的预定义子空间中。对于小样本的学习，可以很好地概括一个合适的子空间，在给定的条件下满足三个条件：（a）允许通过梯度流减少训练误差，（b）导致模型更好泛化，（c）可以通过随机梯度下降来识别。SubGD识别来自不同任务中这些子空间更新方向的自相关矩阵的特征分解，可以识别低维合适的子空间，用于动态的小样本学习。

论文下载：https://arxiv.org/pdf/2206.03483v1.pdf

标题：Google、斯坦福、北卡罗来纳大学、DeepMind|Emergent Abilities of Large Language Models（大型语言模型的新兴能力）了解详情

作者：Jason Wei, Yi Tay, Jeff Dean, William Fedus等

简介：本文介绍了语言模型的新特征。语言模型已经展示了以可预测的方式提高各种下游的性能和样本效率的能力。本文讨论了一种不可预测的现象，作者称之为大语言模型的新兴能力。考虑一种能够成为新兴者的能力，如果它不是存在于较小的模型中，但存在于较大的模型。因此，新兴能力不能只需通过推断较小模型进行预测。新兴能力存在意味着额外的尺寸增加可以进一步扩大语言模型的能力。

论文下载：https://arxiv.org/pdf/2206.07682v1.pdf

标题：南洋理工大学|Neural Prompt Search（神经提示搜索）了解详情

作者：Yuanhan Zhang, Kaiyang Zhou, Ziwei Liu

简介：本文介绍了视觉模型提示算法。在过去几年中，视觉模型的规模呈指数级增长，特别是在视觉变换器出现之后。这推动了参数效率调整方法的发展，例如学习适配器层，或视觉提示标记。允许模型参数的一小部分训练，而绝大多数从训练前获得的参数都是冻结的。然而设计一个合适的调优方法并非易事：人们可能需要尝试冗长的设计选择列表，更不用说每个下游数据集通常需要定制设计。在本文中，作者研究了现有的参数效率调整方法作为“提示模块”，并提出了一种新颖的学习方法：神经提示搜索（NOAH）。对于大型视觉模型，提示的优化设计模块通过神经架构搜索算法，专门针对每个下游数据集。通过对20多个视觉数据集进行广泛的实验，作者证明NOAH（i）优于单个提示模块，（ii）具有良好的小样本学习能力，（iii）是领域可推广的。

代码下载：https://github.com/Davidzhangyuanhan/NOAH

论文下载：https://arxiv.org/pdf/2206.04673v1.pdf

标题：腾讯|Efficient Decoder-free Object Detection with Transformers（使用变换器实现高效的无解码器对象检测）了解详情

作者：Peixian Chen, Mengdan Zhang, Chunhua Shen等

简介：本文介绍了一种视觉对象检测方法。微妙的用法是DETR系列，在物体检测中无需许多手工设计的组件，但引入了解码器需要超长的时间才能收敛。作者提出了一种新型的无解码器完全基于变换器（DFFT）物体检测器，在两次训练中都实现了高效率和推理阶段。作者将异议检测简化为仅基于编码器的单级锚点密集预测问题，方法是将两个问题作为中心入口点：1）消除训练效率低下的解码器，并利用两个强大的编码器来保持单级特征图预测的准确性；2）探索检测任务的低级语义特征计算资源。特别是，作者设计了一个新颖的以轻量化检测为导向的变换器主干网，通过丰富的语义有效地捕获低级特征。对 MS COCO 基准测试的广泛实验表明：DFFT比DETR高出 2.5%，计算成本降低了28%，训练时间减少了10倍。与当前最佳的基于锚点的探测器RetinaNet算法相比，DFFT获得了超过5.5%的AP增益，同时降低70%的计算成本。

论文下载：https://arxiv.org/pdf/2206.06829v1.pdf

标题：微软 | Language Models are General-Purpose Interfaces（语言模型是通用接口）了解详情

作者：Yaru Hao, Haoyu Song, Li Dong,等

简介：本文研究如何将预训练语言模型作为基础模型的通用接口、并提出结合因果学习技术的策略。基础模型因其在广泛的下游应用中的有效性而备受关注。尽管在架构方面已存在很多的融合，但大多数预训练模型通常仍是为特定任务或模式开发的。在这项工作中，作者建议使用语言模型作为各种基础模型的通用接口。一组预训练的编码器可以感知不同的模态（例如视觉和语言），并且它们与扮演通用任务层角色的语言模型对接。作者提出了一个半因果语言建模目标来联合预训练接口和模块化编码器。作者包含了因果建模和非因果建模的优势和能力，从而结合了这两个维度的优点。多个纯语言和视觉语言基准的实验结果表明，作者的模型在微调、零样本泛化和少样本学习方面优于或平于专业模型。

论文下载：https://arxiv.org/pdf/2206.06336

标题：纽约大学、IBM | Task Transfer and Domain Adaptation for Zero-Shot Question Answering（零样本问答的任务转移和领域适应）了解详情

作者：Xiang Pan, Alex Sheng, David Shimshoni,等

简介：本文发表在NAACL 2022 深度学习低资源 NLP 研讨会。预训练的语言模型在自然语言处理的各个领域都取得了成功，包括阅读理解任务。但是，当将机器学习方法应用于新领域时，标记数据可能并不总是可用。为了解决这个问题，作者对源域数据使用监督预训练来降低特定域下游任务的样本复杂性。作者通过将任务转移与领域适应相结合来微调没有来自目标任务的标记数据的预训练模型，从而评估特定领域阅读理解任务的零样本性能。作者的方法在 4 个领域中的 3 个领域中的下游特定领域阅读理解任务上优于领域自适应预训练模型。

论文下载：https://arxiv.org/pdf/2206.06705

标题：天津大学 | Unsupervised and Few-shot Parsing from Pretrained Language Models(基于预训练语言模型的无监督小样本句法分析)了解详情

作者：Zhiyuan Zeng, Deyi Xiong

简介：本文研究预训练语言模型中无监督句法分析领域。人们普遍认为经过预训练的语言模型能够对语法进行编码。在本文中，作者提出了一种无监督的成分分析模型（UPOA）：基于在预训练的语言模型中学习的自我注意权重矩阵来计算关联外得分，作为跨度分割的句法距离。作者进一步提出了一个增强版本UPIO，它利用内部关联和外部关联得分来估计跨度的可能性。UPOA和UPIO的实验表明，查询的线性投影矩阵和自我注意机制中的键在解析中起着重要作用。因此，作者将无监督模型扩展到小样本解析模型（FPOA，FPIO），这些模型使用部分带注释的树来学习更优的线性投影矩阵进行解析。跨语言分析实验表明：在SPMRL的大多数语言上，无监督和小样本分析方法都优于以前的方法。

论文下载：https://arxiv.org/pdf/2206.04980.pdf

标题：亚马逊 | Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter Encoders for Natural Language Understanding Systems（Alexa 教师模型：为自然语言理解系统预训练和提取数十亿参数的编码器）了解详情

作者：Jack FitzGerald, Shankar Ananthakrishnan, Konstantine Arkoudas,等

简介：本文主要展示大规模的预训练编码器实验的结果。在实验中作者的该编码器非嵌入参数计数范围从 700M 到 9.3B，随后将其提炼成参数范围从 17M-170M 的较小模型，并将其应用于虚拟辅助系统的自然语言理解（NLU）组件。虽然作者使用70%的口语形式数据进行训练，但当在书面形式跨语言自然语言推理（XNLI）语料库上进行评估时，作者的教师模型的表现与XLM-R和mT5相当。作者使用系统中的域内数据对作者的教师模型进行第2阶段的预训练，相对于意图分类错误率提高了3.86%，相对于插槽填充错误率提高了7.01%。作者发现，与仅接受公共数据训练的2.3B参数的教师模型（第1阶段）相比，即使是从作者的第2阶段教师模型中提取的170M参数模型，其意图分类也有2.88%的改进，插槽填充错误率也有7.69%的改进，强调了域内数据对于预训练的重要性。

论文下载：https://arxiv.org/pdf/2206.07808

标题：Mila等 | PEER: A Comprehensive and Multi-Task Benchmark for Protein Sequence Understanding（PEER: 蛋白质序列理解的全面和多任务基准）了解详情

作者：Minghao Xu, Jian Tang等

简介：本文介绍了一个蛋白质预训练benchmark。近年来深度学习方法在蛋白质的各种任务中取得了重大进展。然而，目前缺乏一个标准的基准来评估不同方法的性能。本文提出了名为PEER的基准，一个全面的、多任务的蛋白质序列理解的基准。PEER提供了一组不同的蛋白质理解任务，包括蛋白质功能预测、蛋白质定位预测、蛋白质结构预测、蛋白质-蛋白质相互作用预测和蛋白质-配体相互作用预测。本文为每项任务评估了不同类型的基于序列的方法，包括传统的特征工程方法、不同的序列编码方法以及大规模预训练的蛋白质语言模型。此外，本文还研究了这些方法在多任务学习设置下的性能。实验结果表明，大规模预训练的蛋白质语言模型在大多数单个任务中取得了最佳性能，而联合训练多个任务则进一步提高了性能。

论文下载：https://arxiv.org/pdf/2206.02096v1.pdf

标题：清华等 | A novel attention-based peptide language model for dipeptidyl peptidase-IV inhibitory peptides mining（用于二肽基肽酶-Ⅳ抑制剂挖掘的基于注意力的二肽语言模型）了解详情

作者：Changge Guan, Xin-Hui Xing等

简介：本文介绍了预训练在药物研发中的应用。二肽基肽酶-Ⅳ抑制剂（DPP-IV-IP）是新型抗糖尿病药物，然而由于缺乏有效的多肽挖掘工具，已发现的DPP-IV-IP数量有限。本文提出了一个基于BERT的多肽预训练语言模型（PLM）来识别DPP-IV-IP，并取得了最先进的0.894的准确率。模型的注意力的可视化显示，该模型可以自动从多肽序列中学习物理化学和结构特性的信息，即DPP-IV裂解位点，也可以区分和表示高维空间的氨基酸序列。本文首次证明了PLM可以捕获裂解位点信息，并证明了PLM指导生物实验筛选的能力。从生物实验中获得的结果表明，基于PLM辅助的DPP-IV-IP筛选，模型的预测准确率为90%。为了探索DPP-IV-IP的多样性，本文提出了一个基于二肽重复单元X-脯氨酸的策略，并通过建模和生物实验表明该策略是可行的。

论文下载：https://doi.org/10.1101/2022.06.13.495896

标题：慕尼黑工大 | TMbed - Transmembrane proteins predicted through Language Model embeddings（TMbed：通过语言模型嵌入预测透膜肽）了解详情

作者：Michael Bernhofer, Burkhard Rost

简介：本文介绍了预训练在透膜肽预测中应用。今天的新方法可以准确预测许多结构，但蛋白跨膜区域的注释仍然是整个蛋白质组研究的一个限制性步骤。本文提出了一种新的方法，称为TMbed，它从预训练蛋白质语言模型（ProtT5）中输入嵌入，在几小时内就能在一台消费级台式机上完成对整个蛋白质组的α螺旋和β桶状TMP的预测，其性能水平与使用进化信息的方法类似或更好。在每个蛋白质水平上，TMbed正确识别了非冗余数据集中65个β-桶状TMP中的61个和593个α-螺旋状TMP中的579个，假阳性率远低于1%。在每段水平上，TMbed平均将10个跨膜区域中的9个正确地置于实验验证的残基内。简而言之，TMbed准确地预测了α螺旋和β桶TMPs，利用蛋白质语言模型和GPU加速，它可以在不到一个小时内预测人类蛋白。

论文下载：https://doi.org/10.1101/2022.06.12.495804

标题：西湖大学、微软等 | Exploring evolution-based & -free protein language models as protein function predictors（探索基于进化与否的蛋白质语言模型作为蛋白质功能的预测器）了解详情

作者：Mingyang Hu, Fajie Yuan等

简介：本文评价了蛋白上的3种架构与预训练。大规模的蛋白质语言模型（PLMs）提高了蛋白质预测任务的性能，包括从三维结构预测到各种功能预测。特别是AlphaFold，一个开创性的，有可能重塑结构生物学的人工智能。然而，AlphaFold中的PLM模块Evoformer的效用还没有被探索到结构预测之外。本文研究了三种流行的PLMs的表征能力。ESM-1b（单序列）、MSA-Transformer（多序列比对）和Evoformer（结构），其中特别关注Evoformer。具体来说，本文旨在回答以下关键问题：作为AlphaFold的一部分训练的Evoformer是否能产生适合预测蛋白质功能的表征？如果是，Evoformer能否取代ESM-1b和MSA-Transformer？这些PLMs在多大程度上依赖于进化相关的蛋白质数据？在这方面，它们是否相互补充？本文通过实证研究对这些模型进行比较，同时提出新的见解和结论。

论文下载：https://arxiv.org/pdf/2206.06583v1.pdf

研究动态

标题：谷歌等|BEYOND THE IMITATION GAME: QUANTIFYING AND EXTRAPOLATING THE CAPABILITIES OF LANGUAGE MODELS(超越模仿游戏：量化和推断语言模型的能力)了解详情

简介：随着规模的不断增强，语言模型既展示了定量改进，也展示了定性改进能力。作者引入了超越模仿游戏基准测试（BIG-bench），由204个任务组成，主题包括绘图问题、语言学，儿童发展，数学，常识推理，生物学，物理，社会偏见，软件开发等。BIG-bench专注于超出当前语言模型能力的任务。作者评估OpenAI的GPT模型的行为，谷歌内部密集变换器架构，以及BIG-bench上的路由稀疏变换器，跨越数百万到数千亿个参数的模型尺寸。调查结果包括：模型性能和准确率都随着规模的提高而改善，但绝对值较差（与评分员的表现相比）；性能在模型类间非常相似，尽管具有稀疏性的好处；逐步和可预测的任务通常涉及大量知识或记忆组件，而在关键规模通常涉及多个步骤或组件，或脆性指标；在上下文不明确的设置中，社会偏见通常会随着模型规模的增加而增加，但这可能会通过提示调整进行改进。

论文下载：https://arxiv.org/pdf/2206.04615v1.pdf

标题：英国牛津大学、萨里大学| Multimodal Learning with Transformers: A Survey（综述：Transformers 多模态学习）

作者：Peng Xu, Xiatian Zhu, David A. Clifton了解详情

简介：Transformer 是一种很有前途的神经网络学习器，在各种机器学习任务中取得了巨大的成功。由于最近多模态应用和大数据的流行，基于 Transformer 的多模态学习已成为 AI 研究的热门话题。本文对面向多模态数据的 Transformer 技术进行了全面调查。本次综述研究的主要内容包括：（1）多模态学习、Transformer 生态系统和多模态大数据时代的背景。（2）从几何拓扑的角度对 Vanilla Transformer、Vision Transformer 和多模态 Transformer 的理论回顾。(3) 通过两个重要的范式，即多模态预训练和特定的多模态任务，回顾多模态 Transformer 应用程序。（4）总结多模式Transformer模型和应用共享的常见挑战和设计。（5）讨论社区中的开放问题和潜在研究方向。

论文下载：https://arxiv.org/pdf/2206.06488

标题：AI大牛们正离开大厂加盟北美大模型四小龙了解详情

简介：近期CNBC报道，大模型相关的四家当红创业公司Inflection、Cohere、Adept和Anthropic最近吸引了几十位 Google, Meta, OpenAI 和 DeepMind 等大厂的AI专家加盟，他们的融资额分别为2.25亿、1.7亿、1.24亿、0.65亿美元。风险投资公司和亿万富翁热衷于从他们取得的任何成功中套现，推动了这些初创企业的招聘工作。这些公司正在一种被称为 "Transformer "的新技术基础上构建新的产品和服务。Transformer允许人工智能系统以以前从未考虑过的方式进行扩展，这意味着有可能使它们的功能和能力大大增强。"当开始扩大这些模型的规模时，能力就将以一种无法预测的方式增长，"Cohere首席执行官艾丹-戈麦斯告诉CNBC。"这就像一个完全的冲击。"OpenAI的GPT-3和Dalle-E，谷歌的Bert，以及DeepMind的AlphaFold和AlphaStar都是由Transformer支撑的突破性人工智能系统的例子。