《预训练周刊》第48期：零样本推理、模型模板生成、去噪解码器

智源社区

于 2022-06-09 18:00:09 发布

阅读量517

点赞数

文章标签：大数据算法编程语言 python 计算机视觉

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5ODg0MTAwMw==&mid=2247526052&idx=3&sn=edd3e8ab876f6908d802d1d4cf9f50ca&chksm=febc2560c9cbac767fb7169cc2bcc1d57c42b3f4c875ca24faa37a3a8ab575bbf1b6707d7d71&scene=126&&sessionid=0

版权

No.48

智源社区

预训练组

预

训

练

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息，《预训练周刊》已经开启“订阅功能”，以后我们会向您自动推送最新版的《预训练周刊》。订阅方法：

方式1：扫描下面二维码，进入《预训练周刊》主页，选择“关注TA”。

方式2：点击本文下方的“阅读原文”，进入《预训练周刊》Hub社区版，根据内附的详细订阅步骤，完成订阅。

关于周刊

本期周刊，我们选择了11篇预训练相关的论文，涉及变换器结构、零样本推理、超参数优化、多模态、模型模板转换、模型压缩、文本生成、提示学习、蛋白质进化学习、突变预测和蛋白降解的探索。此外，在研究动态方面，我们选择了3篇预训练资讯，将介绍图像分割、分子表征和开源预训练直播方面的一些最新内容。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）

论文推荐

标题：新加坡国立、南洋理工、华为|Deeper vs Wider: A Revisit of Transformer Configuration（更深与更宽：变换器配置的重新审视）了解详情

作者：Fuzhao Xue, Jianghai Chen,Yang You等

简介：本文研究了BERT与BEiT变换器模型的改进超参数。基于变换器的模型在许多任务上都取得了令人印象深刻的结果，尤其是视觉和语言任务。许多模型训练通常采用配置，例如，经常将基本模型设置为隐藏尺寸（即模型宽度）为768和变换器层（即模型深度）为 12。在本文中，作者重新审视这些常规配置，通过理论分析和实验评估，作者证明屏蔽的自动编码器可有效缓解过度平滑问题，在深度变换器训练中。基于这一发现，作者提出了Bamboo，使用更深更窄的变换器配置，用于训练屏蔽自动编码器。在ImageNet上，重新设计型号达到 87.1% 的第 1 名准确率，并优于 MAE 和 BEiT等 SoTA 模型。在语言任务上，在 GLUE 数据集上重新设计的模型优于默认的 BERT平均 1.1 分。

论文下载：https://arxiv.org/pdf/2205.10505.pdf

标题：东京大学、谷歌|Large Language Models are Zero-Shot Reasoners(大型语言模型是零样本推理器)了解详情

作者：Takeshi Kojima, Shixiang Shane Gu, Yusuke Iwasawa等

简介：本文研究了大语言模型（LLM）的小样本学习的能力。作者表明LLM是不错的零样本推理者只需在每个答案之前添加“让我们一步一步思考”。实验结果表明，作者的零样本-CoT，使用相同的单个提示模板，在各种基准测试上明显优于零样本LLM性能推理任务：包括算术（MultiArith，GSM8K，AQUA-RAT，SVAMP），符号推理（最后一封信，掷硬币）和其他逻辑推理任务（日期理解，跟踪随机播放的对象），没有任何手工制作的几个样本示例，例如将MultiArith的精度从17.7%提高到78.7%和GSM8K从10.4%到40.7%，利用现成的175B参数模型。这个单一提示在非常多样化的推理任务中的多功能性，暗示LLM的基本零样本能力尚未得到开发和充分研究，这表明高水平多任务的广泛认知能力可以通过简单方法完成。作者希望这次工作不仅能成为具有挑战性的推理基准的最小最强零样本基线，而且还能仔细探索和分析零样本知识的重要性。

论文下载：https://arxiv.org/pdf/2205.11916v1.pdf

标题：DeepMind、谷歌|Towards Learning Universal Hyperparameter Optimizers with Transformers（基于变换器学习通用超参数优化器）了解详情

作者：Yutian Chen, Xingyou Song，Nando de Freitas等

简介：本文利用了变换器模型来调优超参数。来自先前实验的元学习超参数优化（HPO）算法是一种很有前途的方法，可以提高优化效率而不是目标来自类似发行版的函数。但是，现有方法仅限于从共享同一组超参数的实验中学习。在本文中，作者介绍 OPTFORMER，这是第一个基于文本的 Transformer HPO 框架它提供了一个通用的端到端接口，用于在从域外（如Google）进行大量调优数据训练时，可以联合学习策略和功能预测：世界上最大的HPO数据集之一的Vizier数据库。作者广泛的实验证明 OPTFORMER 可以模仿至少 7 种不同的 HPO 算法，这可以通过其函数不确定性估计进一步改进。

论文下载：https://arxiv.org/pdf/2205.13320v1.pdf

标题：UIUC、微软、UNC、哥大|Language Models with Image Descriptors are Strong Few-Shot Video-Language Learners(具有图像描述符的语言模型是强大的小样本视频语言学习器）了解详情

作者：Zhenhailong Wang , Manling Li，Heng Ji等

简介：本文介绍了构建灵活的视频语言模型。这些模型可以从多个示例中推广到各种视频到文本的任务，例如特定于域的任务：字幕、问答和未来事件预测。现有的小样本视频语言学习者只关注编码器，导致缺席的视频到文本解码器来处理生成任务。作者提出了VidIL，在少量视频到文本任务上表现出强大的性能无需对任何视频数据集进行预训练或微调。作者使用图像语言模型，用于将视频内容转换为帧标题，对象，属性和事件短语，并将它们组合成时态结构模板。然后，作者指导一个语言模型，并带有一个包含一些上下文的提示、示例，从组合内容生成目标输出。灵活性提示允许模型捕获任何形式的文本输入。作者的实验证明了语言模型在理解各种视频语言任务上的视频，包括视频字幕、视频问答、视频字幕检索、以及视频未来事件预测，特别是在视频未来事件预测方面，作者的小样本模型显著优于在大规模视频数据集上训练的SOTA模型。

代码下载：https://github.com/MikeWangWZHL/VidIL

论文下载：https://arxiv.org/pdf/2205.10747v2.pdf

标题：斯坦福大学 | TempLM: Distilling Language Models into Template-Based Generators（将语言模型提炼成基于模板的生成器）了解详情

作者：Tianyi Zhang, Mina Lee, Lisa Li, Ende Shen,等

简介：本文在文本生成领域研究预训练语言模型 (PLM) 与基于模板技术的融合。虽然PLM极大地改进了文本生成，但PLM也会产生不忠实或不恰当的内容。相比之下，经典的基于模板的系统以流畅性为代价提供了强有力的忠实保证。作者提出了 TempLM，它通过将 PLM 提炼成基于模板的生成器来实现两全其美。在 E2E 和 SynthBio 数据到文本数据集上，作者表明 TempLM 比原始 PLM 更忠实，并且比以前的模板系统更流畅。值得注意的是，在域外评估中，TempLM 将微调 BART 模型的不忠实率从 83% 降低到 0%。在一项人类研究中，作者发现 TempLM 的模板大大改进了 BERTScore 中人工编写的模板。

论文下载：https://arxiv.org/pdf/2205.11055

标题：清华大学、意大利帕多瓦大学、华为| Exploring Extreme Parameter Compression for Pre-trained Language Models（探索预训练语言模型的极限参数压缩）了解详情

作者：Nigel Fernandez , Aritra Ghosh , Naiming Liu ,等

简介：本文研究探索预训练语言模型（PLM）的极限压缩比。最近的工作探索了基于Transformer 的大规模预训练模型的潜力，特别是PLM在自然语言处理中的潜力。这从不同角度引发了许多担忧，例如财务成本和碳排放。在性能损失可以忽略不计的情况下压缩像BERT这样的PLM，以实现更快的推理和更廉价的部署，已经引起了人们的广泛关注。在这项工作中，作者的目标是探索PLM更大的压缩比，其中张量分解是一种潜在的但尚未研究的方法。为了提高压缩过程中的有效性和效率，进一步提出了两种分解和重构协议。作者在Transformer层中使用1/7参数的压缩、与BERT之性能相当，有时比GLUE benchmark中的原始BERT略好。一个微型版本使用1/48的编码器参数（即不包括嵌入层的参数小于2M）和2.7倍的推理速度，实现了BERT-base模型96.7%的性能。

论文下载：https://arxiv.org/pdf/2205.09864

标题：美国俄亥俄州立大学、Bloomberg、约翰霍普金斯大学 | What Makes Data-to-Text Generation Hard for Pretrained Language Models?（是什么让预训练语言模型难以生成数据到文本）了解详情

作者：Moniba Keymanesh, Adrian Benton, Mark Dredze

简介：本文研究数据到文本生成领域的预训练技术。在表达结构化事实或关系的自然语言描述之时，数据到文本的生成 (D2T)：增加了结构化知识库的可访问性。先前的工作表明：虽然自回归 PLM 可以从一些任务示例中进行概括，但它们在 D2T 中的功效在很大程度上尚未得到探索。在这项工作中，作者对 DART 多域 D2T 数据集上的微调和自回归 PLM 进行了实证研究。作者将它们的性能视为特定任务数据量以及这些数据如何被纳入模型的函数：零样本和少样本学习，以及模型权重的微调。为了提高这些子集的性能，作者研究了两种技术：在上下文中提供谓词描述，并根据源中反映的信息重新排列生成的候选者。最后，作者对模型错误进行了人工评估，并表明 D2T 生成任务将受益于具有更仔细地手动管理的数据集。

论文下载：https://arxiv.org/pdf/2205.11505

标题：清华大学、北京国家信息科学技术研究中心等 | Prompt Tuning for Discriminative Pre-trained Language Models（判别式预训练语言模型的提示调优）了解详情

作者：Yuan Yao, Bowen Dong, Ao Zhang,等

简介：本文提出判别式预训练语言模型提示调优的首个框架。最近的工作显示了在鼓励用于自然语言处理 (NLP) 任务的预训练语言模型 (PLM) 方面的提示调优的可喜结果。然而，据作者所知，现有工作专注于对生成 PLM的提示调优，这些 PLM 经过预训练以生成目标令牌（如 BERT）。目前尚不清楚区分性 PLM（如 ELECTRA）是否以及如何能够有效地提示调优。在这项工作中，作者提出了 DPT，这是第一个用于判别式 PLM 的提示调优框架，它将 NLP 任务重新定义为判别语言建模问题。文本分类和问答的综合实验表明，与普通微调相比，DPT 实现了显着更高的性能，并且还防止了在全集和低资源设置中调优大型 PLM 的不稳定问题。

论文下载：https://arxiv.org/pdf/2205.11166

源码下载：https://github.com/thunlp/DPT

标题：腾讯 | ODBO: Bayesian Optimization with Search Space Prescreening for Directed Protein Evolution（ODBO：贝叶斯优化与搜索空间预筛选的蛋白质定向进化）了解详情

作者：Lixue Cheng, Shengyu Zhang等

简介：本文介绍了预训练与优化算法在定向进化上的应用。定向进化是蛋白质工程中的一种通用技术，它模仿自然选择的过程，以寻找能优化某一感兴趣的属性的序列。然而，可能蛋白质空间太大，无法在实验室中进行详尽的搜索。本文提出了一个高效的、以实验设计为导向的蛋白质定向进化闭环优化框架，称为ODBO，它采用了新的蛋白质表征策略和贝叶斯优化的组合，通过离群点检测对搜索空间进行预筛选。作者进一步设计了一个初始样本选择策略，以尽量减少用于训练机器学习模型的实验样本数量。本文进行并报告了四个蛋白质定向进化实验，证实了所提出的框架在寻找具有感兴趣属性的变体方面的能力。本文希望ODBO框架能大大降低定向进化的实验成本和时间成本。

论文下载：https://arxiv.org/pdf/2205.09548v2.pdf

标题：哥伦比亚大学、ETH | High-throughput deep learning variant effect prediction with Sequence UNET（利用Sequence UNET进行高通量深度学习突变效应预测）了解详情

作者：Alistair S. Dunham, Pedro Beltrao, Mohammed AlQuraishi

简介：本文介绍了Unet与基线、预训练模型在蛋白突变预测上的比较。以前的突变效应预测工具，通常基于进化保守和蛋白质结构的计算密集型的方法。最近，包括蛋白质预训练语言模型在内的深度学习技术和生物数据规模的发展带来了新一代的预测器。本文介绍了一个新的高度可扩展的深度学习架构Sequence UNET，它可以直接从蛋白质序列中分类和预测突变体频率。这个模型通过使用完全卷积的U型压缩/扩展架构，在一系列的尺度上学习建立蛋白质序列特征的表征。本文表明，它可以推广到致病性预测，在ClinVar上实现了与EVE和ESM-1b等预训练方法相当的性能，而计算成本大大降低。作者通过分析大规模蛋白质组学分析中检测到的904,134个蛋白质中的83亿个突变体，进一步证明了方法的可扩展性，显示了保护和蛋白质丰度之间的联系。

论文下载：https://doi.org/10.1101/2022.05.23.493038

标题：MIT、哈佛、杜克大学 | Design of Peptide-Based Protein Degraders via Contrastive Deep Learning（通过对比深度学习设计基于肽的蛋白质降解剂）了解详情

作者：Kalyan Palepu, Pranam Chatterjee等

简介：本文介绍了经典多模态预训练CLIP在蛋白上的应用。蛋白质中的很大一部分被认为是 "不可药用 "，主要是由于其无序的性质和不稳定性。因此，为不可药用的目标设计功能性肽，无论是作为独立的结合蛋白还是与有效domain的融合，都为治疗干预提供了独特的机会。本文改变自最近的对比性语言-图像预训练（CLIP）的模型，设计了一个统一的、基于序列的框架来设计靶点特异性多肽。此外，通过利用已知的实验结合蛋白作为支架，本文创建了一个简化的推理流程，称为Cut&CLIP，有效地选择多肽进行下游筛选。最后，本文通过实验将候选肽与E3泛素连接酶域相融合，并证明了人类细胞中致病蛋白目标的稳健的细胞内降解，促使技术进一步发展，用于未来的临床转化。

论文下载：https://doi.org/10.1101/2022.05.23.493169

研究动态

标题：Google | Decoder Denoising Pretraining for Semantic Segmentation（用于语义分割的去噪预训练解码器）了解详情

作者：Emmanuel Brempong Asiedu, Simon Kornblith, Ting Chen,等

简介：本文研究解码器去噪的预训练技术。获取语义分割标签既昂贵又耗时。因此，预训练通常用于提高分割模型的标签效率。通常，分割模型的编码器被预训练为分类器，而解码器被随机初始化。在这里，作者认为解码器的随机初始化可能不是最理想的，尤其是当可用的标签示例很少时。作者提出了一种基于去噪的解码器预训练方法，该方法可以与编码器的监督预训练相结合。作者发现，在ImageNet数据集上，解码器去噪预训练大大优于仅编码器的监督预训练。尽管很简单，但解码器去噪预训练在标签高效语义分割方面取得了最先进的结果，并在 Cityscapes、Pascal Context、和ADE20K数据集上获得了可观的收益。

论文下载：https://arxiv.org/pdf/2205.11423

标题：人大、深势科技等 | Uni-Mol: A Universal 3D Molecular Representation Learning Framework（Uni-MOL: 一个通用3D分子表征学习框架）了解详情

作者：Linfeng Zhang，Guolin Ke等

简介：本文介绍了三维分子预训练。药物分子与图片、语言文字的不同之处在于，什么是最好的分子表征。主流分子预训练模型均从一维序列或二维图结构出发，但分子结构本身是在三维空间中表示的。能否直接从三维信息出发构建预训练模型、获得更好的分子表征，是一个重要而有意义的问题。深势科技团队发布了首个三维分子预训练模型 Uni-Mol。Uni-Mol 直接将分子三维结构作为模型输入，而非采用一维序列或二维图结构。从三维信息出发的表征学习让 Uni-Mol 在几乎所有与药物分子和蛋白口袋相关的下游任务上都超越了 SOTA，也让 Uni-Mol 得以能够直接完成分子构象生成、蛋白-配体结合构象预测等三维构象生成相关的任务，并超越现有解决方案。

论文下载：https://chemrxiv.org/engage/chemrxiv/article-details/628e5b4d5d948517f5ce6d72

标题：OpenBMB | 叮！你有一封大模型直播训练邀请函！了解详情

简介：OpenBMB将依托开源社区开展一场实验性的模型直播训练，即开源大模型CPM-Live直播训练。诚然，目前大模型的训练过程仍然依赖集中的大规模算力与数据，呈现出一定的“中心化”。但通过提示学习、持续学习、知识继承相关技术，开发者可以通过监督模型训练进度，实时调整模型的训练数据、训练任务甚至参数规模。CPM-Live训练将使用OpenBMB开源的大模型全流程加速工具包。通过大模型训练"发动机"BMTrain，可以在小规模的集群中训练百亿以上规模的超大模型，这大幅降低了模型训练的成本，也使训练更加低碳和高效。使用大模型“瘦身”工具库BMCook和高效推理工具包BMInf，普通用户可以在消费级显卡上运行大模型，从而更加便捷地体验大模型的魅力。CPM-Ant训练将于5月29日正式开启，如果想了解更多内容，不妨看看链接中的计划书吧。

官方网站：https://live.openbmb.org