No.24
智源社区
预训练组
预
训
练
研究
观点
资源
活动
关于周刊
超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第24期《预训练周刊》,从论文推荐、研究动态等维度推荐近期发生在预训练模型领域值得关注的信息。
本期周刊,我们选择了14篇预训练相关的论文,涉及答案选择、变换器改进、多模态、Prompt调优、大语言模型、情绪检测、阅读理解、代码度量、代码语言模型、超参数调优、蛋白质配体结合、蛋白质设计、非编码基因组和细胞基因表征的探索。此外,在研究动态方面,我们选择了1篇预训练资讯,将介绍文本摘要方面的一些最新资讯。在资源推荐方面,我们选择了1篇预训练资源,将介绍大模型基金申请方面的一些最新内容。
周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。
(本期贡献者:申德周 翟珂 吴新刚)
论文推荐
标题:华盛顿大学、艾伦研究院|Surface Form Competition: Why the Highest Probability Answer Isn’t Always Right(形式竞争:为什么最高概率的答案并不总是正确的)了解详情
作者:Ari Holtzman, Luke Zettlemoyer等
简介:本文讨论了在多项选择任务中最高的概率回答是否最优的问题。但是,按字符串概率排序可以由于表面形式竞争而存在问题——其中不同的表面形式竞争概率质量,即使它们代表相同的基本概念,例如:“计算机”和“PC”。由于概率质量是有限的,由于来自其他字符串的竞争(如这是有效的答案,但不是多项选择选项之一),这降低了正确答案的概率。作者提出领域条件点互信息,一种替代评分函数,通过简单地根据与特定零样本任务上下文中的先验可能性成正比的项重新权衡每个选项,直接补偿表面形式的竞争。它在多种选择数据集,在所有 GPT-2 和GPT-3模型上的零样本性能方面取得了一致的收益。
代码地址:https://github.com/peterwestuw/surface-form-competition
论文地址:https://arxiv.org/pdf/2104.08315v3.pdf
标题:里斯本大学 、Deep Mind|∞-former: Infinite Memory Transformer(Infinite-former:无限记忆变换器)了解详情
作者:Pedro Henrique Martins、André F. T. Martins
简介:本文介绍了变换器的长序列文本优化。变换器在长时间在上下文中挣扎,因为随着上下文长度计算量在增长,他们不能有效地模拟长期记忆。在本文中,作者提出无穷变换器,它扩展了具有无限长期记忆的普通变换器。通过利用长期参与在记忆中连续空间注意力机制,Infinite-former的注意力复杂度变得独立于上下文长度。因此,它能够对任意长的上下文进行建模并保持“粘性记忆”,同时保持固定的计算量。合成排序任务的实验证明Infinite-former保留来自长序列的信息的能力。作者还通过训练对语言建模进行实验从头开始构建模型并通过微调预训练的语言模型,这显示出无限的长期记忆优势。
论文地址:https://arxiv.org/pdf/2109.00301v1.pdf
标题:南洋理工大学|LEARNING TO PROMPT FOR VISION-LANGUAGE MODELS(基于学习提示的视觉语言模型)了解详情
作者:Kaiyang Zhou, Ziwei Liu
简介:本文利用提示来提升视觉语言预训练的泛化性能。它从使用图像和离散标签来学习一组固定的权重的传统转变为对齐图像和两个独立编码器的原始文本。为了克服这一挑战,作者提出了一种名为上下文优化 (CoOp)。主要思想是使用连续表示对提示中的上下文进行建模,并从数据中执行端到端学习,同时保持预先训练的参数固定。这样,任务相关的设计提示可以完全自动化。在 11个数据集上的实验表明,CoOp 有效地将预训练的视觉语言模型转变为数据高效的视觉学习器,只需一两次样本就可以得到可观的性能,并且在使用更多样本时能够获得显著改进(例如,在 16个样本时,平均增益约为 17%,最高可达50%)。
代码地址:https://github.com/KaiyangZhou/CoOp
论文地址:https://arxiv.org/pdf/2109.01134v1.pdf
标题:谷歌|The Power of Scale for Parameter-Efficient Prompt Tuning(具有规模能力的参数高效提示优化)了解详情
作者:Brian Lester、Noah Constant
简介:本文探索了一种“提示调优”方法来适应特定下游任务。与GPT-3使用的离散文本提示不同,软提示是通过反向传播学习的,可以调整以合并来自任意数量标记示例的信号。作者的端到端学习方法优于GPT-3的小样本学习。更值得注意的是,通过对模型进行消融使用T5的大小,作者表明提示调整在规模上变得更具竞争力:当模型超过数十亿个参数时,作者的方法“缩小差距”并匹配模型调优的强大性能。这个发现特别相关,因为大型模型成本高昂共享和服务以及重用一个的能力,多个下游任务的冻结模型可以减轻这个负担。可见作者的方法作为最近提议的简化和作者的“前缀调整”提供与此和其他类似的比较方法。最后,作者表明使用冻结模型的软提示调节可以赋予域迁移的健壮性和实现高效的“即时集成”。
论文地址:https://arxiv.org/pdf/2104.08691v2.pdf
标题:谷歌|FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS(微调语言模型是零样本学习者)了解详情
作者:Jason Wei、Quoc V. Le
简介:本文探讨了一种提高语言零样本学习能力的简单方法。作者展示了指令调优--在一系列任务上微调语言模型通过指令描述--大大提高了未知任务的零样本性能。作者采用1370亿参数的预训练语言模型,并在60多个NLP上对其进行指令调整通过自然语言指令模板表达的任务。作者在看不见的任务类型上评估这个称之为FLAN的指令调整模型。FLAN显着改善了其未经修改的对应物的性能,并在作者评估的25次任务中的19次超过1750亿GPT-3零样本。FLAN在 ANLI上的表现甚至大大超过了少样本GPT-3,RTE、BoolQ、AI2-ARC、OpenbookQA和 StoryCloze。消融研究表明该任务数量和模型规模是指令调优成功的关键组成部分。
代码地址:https://github.com/google-research/flan
论文地址:https://arxiv.org/pdf/2109.01652v1.pdf
标题:斯坦福大学 | 在移动设备上训练和分析小儿情绪识别分类器了解详情
作者:Agnik Banerjee, Dennis P. Wall
简介:本文设计了在移动设备上实施自动化情绪识别的图像检测模型。本研究中,作者优化和分析了各种为边缘设备推理而设计的机器学习模型,并且能够匹配先前用于儿童情绪识别的最先进结果。本文最好的模型,一个在 ImageNet 上预训练的 MobileNet-V2 网络,在 CAFE 上实现了 65.11% 的平衡准确度和 64.19% 的 F1 分数,同时在摩托罗拉 Moto G6 手机上实现了 45 毫秒的推理延迟。这种平衡精度仅比 CAFE 的当前最先进技术低 1.79%,CAFE 使用的模型包含 26.62 倍的参数,即使完全优化也无法在 Moto G6 上运行。这项工作验证了通过专门的设计和优化技术,机器学习模型可以变得足够轻量级,可以部署在移动设备上,并且仍然可以在困难的图像分类任务上实现高精度。
论文地址:https://arxiv.org/ftp/arxiv/papers/2108/2108.11754.pdf
标题:华东师范大学、阿里巴巴、上海智能自主系统研究所 | SMedBERT:理解机器阅读理解中的注意力了解详情
作者:Taolin Zhang,Chengyu Wang,等
简介:本文介绍了一种通过注入知识事实来增强预训练语言模型的语言理解能力的方法。对于医学领域,背景知识源特别有用,因为大量的医学术语及其复杂的关系在文本中难以理解。作者介绍了SMedBERT:一种在大规模医学语料库上训练的医学PLM,它结合了来自SMedBERT邻居的深层结构语义知识,提出了:涉及邻居混合注意来学习异构实体信息,将实体类型的语义表示注入到同构的相邻实体结构中。除了作为外部特征的知识集成外,作者还建议将知识图中链接实体的邻居用作文本提及的附加全局上下文,允许它们通过共享邻居进行通信,从而丰富它们的语义表示。实验表明,SMedBERT 在各种知识密集型的中国医疗任务中明显优于强大的基线,而且还提高了其他任务的性能:如问答、问题匹配和自然语言推理。
论文地址:https://arxiv.org/pdf/2108.08983
标题:印度艾什瓦良学院、索尼印度软件中心 | CGEM:使用 GPT-3 自动生成代码的度量模型了解详情
作者:Aishwarya Narasimhan, Veena MB
简介:本文基于蒙特卡罗模拟方法验证无约束算法的评估度量模型。AI 可以生成任何东西;因此输出空间是不受约束的。自动驾驶汽车行驶 1 亿英里以验证其安全性,但无法编写测试来监控和覆盖不受限制的空间。验证 AI 生成内容的解决方案之一是约束问题并将其从抽象转换为现实,这可以通过使用理论证明或使用蒙特卡罗模拟方法验证无约束算法来实现。在这种情况下,作者使用后一种方法来测试/验证具有统计意义的样本数量。验证人工智能生成代码的假设是这项工作的主要动机,为了了解人工智能生成的代码是否可靠,提出了一个度量模型 CGEMs。评估指标适用于使用 OpenAI 的 GPT-3 生成的 80 个代码,该模型实现了 76.92% 的分类准确率和 55.56% 的 F1 分数。
论文地址:https://arxiv.org/ftp/arxiv/papers/2108/2108.10168.pdf
标题:意大利博尔扎诺博赞自由大学 | 预训练的代码模型对代码了解多少?了解详情
作者:Anjan Karmakar,Romain Robbes
简介:本文讨论了代码预训练模型是否真正理解代码。基于 Transformer 架构的预训练代码模型在软件工程任务中表现良好,例如预测代码生成、代码摘要等。然而,来自这些预训练模型的向量表示是否能够很好地全面编码源代码的特征以适用于广泛的下游任务仍然是一个悬而未决的问题。对此进行调查的一种方法是使用称为探针的诊断任务。在本文中,作者为预训练的代码模型构建了四个探测任务(探测表面级、句法、结构和语义信息)。作者展示了如何使用探针来识别模型是否在“理解”某些代码属性方面存在缺陷,表征不同的模型层,并深入了解模型样本效率。作者探讨了四种在代码属性方面的预期知识不同的模型:BERT(英语的预训练)、CodeBERT 和 CodeBERTa(源代码和自然语言文档的预训练)和 GraphCodeBERT(源代码的预训练) 。
论文地址:https://arxiv.org/pdf/2108.11308.pdf
标题:华为、清华 | AutoTinyBERT:高效预训练语言模型的自动超参数优化了解详情
作者:Yichun Yin, Cheng Chen, Lifeng Shang等
简介:本文介绍了一次性神经架构搜索来自动搜索架构超参数。具体来说,作者精心设计了一次性学习和搜索空间的技术,为各种延迟约束提供了一种自适应且高效的微型 PLM 开发方式。作者将本研究中的方法命名为 AutoTinyBERT,并评估其在 GLUE 和 SQuAD 基准测试中的有效性。大量实验表明,作者的方法优于基于 SOTA 搜索的基线(NAS-BERT)和基于 SOTA 蒸馏的方法(例如 DistilBERT、TinyBERT、MiniLM 和MobileBERT)。此外基于获得的架构,本文还提出一种更高效的开发方法、甚至比单个 PLM 的开发速度还快。
论文地址:https://arxiv.org/pdf/2107.13686.pdf
标题:慕尼黑工业大学 | Protein embeddings and deep learning predict binding residues for various ligand classes(蛋白质嵌入和深度学习预测配体结合残基)了解详情
作者:Maria Littmann, Michael Heinzinger等
简介:研究蛋白质功能的一个重要方面是蛋白质与配体的结合,包括小分子、金属离子和大分子,如DNA或RNA。本文提出了bindEmbed21,一种预测蛋白质残基是否与金属离子、核酸或小分子结合的方法。这种基于人工智能的方法使用Transformer的蛋白质语言模型ProtT5的嵌入作为输入,只使用单一序列而不使用多重序列比对(MSA)信息,其性能优于现有的基于MSA的方法并且与基于同源性的推理相结合后其总体性能可以达到F1值45%。模型预测的结合残基也可以补充实验证据,预测前25%的结合残基,至少有73%是正确预测的。最后,该模型在所有人类蛋白质中发现了超过42%的没有出现过的潜在结合残基。
论文地址:https://doi.org/10.1101/2021.09.03.458869
标题:华盛顿大学、微软 | Toward More General Embeddings for Protein Design: Harnessing Joint Representations of Sequence and Structure(用于蛋白设计的通用嵌入:利用序列和结构的联合表征)了解详情
作者:Sanaa Mansoor, Minkyung Baek 等
简介:从序列比对中学习到的蛋白质嵌入已被用于蛋白质理解和工程的任务中。序列嵌入是通过对数以百万计的序列进行半监督训练,并使用数亿个参数的深度神经网络模型来生成的,并且它们在目标任务上的性能随着网络复杂性的增加而不断提高。本文报告了一种数据利用度更高效的方法,通过使用ESM-1b的预训练嵌入和图神经网络对蛋白质序列和结构进行联合训练,以半监督的方式编码蛋白质信息。作者表明,该方法能够对序列结构两类信息进行编码,形成一个丰富的嵌入空间,可用于下游的预测任务并预测单位点突变的影响。
论文地址:https://doi.org/10.1101/2021.09.01.458592
标题:华大、复旦 | Integrating convolution and self-attention improves language model of human genome for interpreting non-coding regions at base-resolution(用于解释非编码区的通过整合卷积和注意力改善人类基因组的语言模型)了解详情
作者:Meng Yang, Haiping Huang等
简介:非编码基因组的解释是人类遗传学的一个未解决的挑战,对此本文提出了LOGO(Language of Genome),一个只包含2层注意力层,有100万个参数的预训练语言模型。它是一个非常轻的架构,应用自监督技术来学习未标记的人类参考基因组的双向表征。LOGO针对序列下游标注任务进行了微调,并添加了替代等位基因的特殊输入编码方案和增加卷积模块等改进,最终模型在启动子识别,增强子-启动子相互作用预测和染色质特征预测上均表现优秀。此外,作者应用LOGO来解释2型糖尿病的GWAS信号,并推断潜在的调节机制。本文在自然语言和人类基因组之间做了一个概念上的类比,并证明LOGO是一个准确、快速、可扩展和稳健的框架。
论文地址:https://doi.org/10.1101/2021.09.06.459087
标题:Mila、麦吉尔大学等 | Learning interpretable cellular and gene signature embeddings from single-cell transcriptomic data(从单细胞转录组数据中学习可解释的细胞和基因特征嵌入)了解详情
作者:Jian Tang, Yue Li 等
简介:单细胞RNA测序(scRNA-seq)技术的出现彻底改变了转录组研究。然而,scRNA-seq数据的大规模综合分析仍然是一个挑战,主要原因在于批次差异和现有计算方法的可迁移性、可解释性和可扩展性有限。本文提出了单细胞嵌入式主题模型scETM,利用了可迁移的神经网络编码器,通过矩阵处理得到一个可解释的线性解码器,可以用于提取细胞混合物的一组高度可解释的基因嵌入、主题嵌入等。利用基因组富集分析,作者发现scETM学习到的主题富集在有生物学意义的和与疾病相关的通路中。最后,scETM能够将已知的基因集纳入基因嵌入,从而通过嵌入直接学习通路和主题之间的关联。
论文地址:https://www.nature.com/articles/s41467-021-25534-2
研究动态
标题:耶鲁、宾夕法尼亚州立大学、微软|SummerTime: Text Summarization Toolkit for Non-expert(SummerTime:非专家文本摘要工具包)了解详情
作者:Ansong Ni, Dragomir Radev
简介:本文介绍了摘要的最新进展,提供了可以生成更高级别摘要质量的模型。虽然这样模型和任务在研究领域快速增长,供非专家跟踪它也变得具有挑战性。为汇总方法使得更易于访问,对于更广泛的受众,作者开发了SummerTime,通过重新思考总结NLP任务非专家的观点。它是一个完整的文本摘要工具包,包括各种模型、数据集和评估指标,适用于与摘要相关的全量任务。与专为NLP研究人员设计的库集成,并为用户提供易于使用的 API。用户可以找到解决方案流水线并搜索最好的模型与他们自己的数据,并将差异可视化,所有这些都仅用几行代码。
代码地址:https://github.com/Yale-LILY/SummerTime
论文地址:https://arxiv.org/pdf/2108.12738v1.pdf
标题:智源|2500万悟道科研基金开始申请了解详情
简介:2021年9月1日-9月30日,为深入挖掘预训练模型的应用价值推动预训练前沿技术的创新进步,总基金池2500万元「悟道科研基金」开始申请!基金面向高校学者等科研团体围绕预训练理论、算法、工具、模型、应用等相关研究,每个项目提供总计50万元/年资助!(20万元科研经费+价值30万算力资助)
如果你正在从事或关注预训练学习研究、实现与应用,欢迎加入“智源社区-预训练-交流群”。在这里,你可以:
学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴
扫描下方二维码,或点击阅读原文申请加入(选择“兴趣交流群→预训练”)