《预训练周刊》第26期：有效扩展：来自预训练和微调变换器的见解、rct.ai训练出5亿参数的BERT-X模型...

智源社区

于 2021-10-18 12:09:11 发布

阅读量456

点赞数

文章标签：大数据算法编程语言 python 机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5ODg0MTAwMw==&mid=2247504148&idx=2&sn=3f95f55165da2a6dd0cde0a6a69d287e&chksm=febc92d0c9cb1bc6d3738d8fde7a77da3709cda19267f07ea6db4386c00d8e06a5799a09f9b4&scene=126&&sessionid=0

版权

No.26

智源社区

预训练组

预

训

练

研究

观点

资源

活动

关于周刊

本期周刊，我们选择了14篇预训练相关的论文，涉及短语检索、网络结构、文本排序、架构扩展、对话选择、语言检测、模型微调、机器翻译、属性注入、阅读理解、蛋白序列学习、蛋白质预测、蛋白属性预测和通用语言模型的探索。此外，在研究动态方面，我们选择了2篇预训练资讯，将介绍大模型产业分析和中文模型训练方面的一些最新内容。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）

论文推荐

标题：斯坦福、高丽大学｜Phrase Retrieval Learns Passage Retrieval, Too（短语检索也学习段落检索）了解详情

作者：Jinhyuk Lee, Danqi Chen

简介：本文讨论了语言模型在短语检索中的应用。作者遵循检索短语的直觉，自然需要检索更大的文本块并研究短语检索是否可以服务作为粗略检索的基础，包括段落和文档。作者首先观察一个密集的短语检索系统，没有任何再训练，已经达到更好的效果，通过检索准确率与段落检索器相比，它也有助于以更少的段落实现卓越的端到端QA性能。然后，作者解释了为什么与段落级监督相比，短语级监督有助于学习更好的细粒度蕴涵，并且还表明可以改进短语检索以实现具有竞争力的性能文档检索任务，例如实体链接和基于知识的对话。最后，作者演示了短语过滤和矢量量化可以减少索引尺寸4-10倍，从而使得多粒度密集短语检索成为一个实用且通用的解决方案。

代码下载：https://github.com/princeton-nlp/DensePhrases

论文地址：https://arxiv.org/pdf/2109.08133v1.pdf

标题：柏林工业大学、柏林洪堡大学、塔尔图大学等｜Deep neural networks using a single neuron: folded-in-time architecture using feedbackmodulated delay loops（使用单个神经元的深度神经网络：使用反馈调制延迟循环的时间折叠架构）了解详情

作者：Florian Stelzer, Ingo Fischer, Serhiy Yanchuk

简介：本文推荐了一种新的神经网络结构。作者提出了一种折叠深的方法将任意大小的神经网络转换为具有多个时延反馈的单个神经元循环。这种单神经元深度神经网络仅包含一个非线性和适当调整反馈信号的调制。网络状态出现在时间作为神经元动态的时间展开。通过调整循环内的反馈调制，作者实现了对网络连接权重的调制。这些连接权重是通过反向传播算法确定，其中必须考虑延迟引起的和本地网络连接。作者的方法可以完全代表标准深度神经网络，包含稀疏DNN，并扩展了DNN概念动态系统的实现。作者称之为Folded-in-time DNN新方法，在一组基准任务中表现出良好的性能。

代码下载：https://github.com/flori-stelzer/deep-learning-delay-system/tree/v1.0.0

论文地址：https://www.nature.com/articles/s41467-021-25427-4.pdf

标题：北卡罗来纳大学,加州大学|Is Everything in Order? A Simple Way to Order Sentences(一切排序了吗？一种简单的句子排序方法)了解详情

作者：Somnath Chowdhury, Snigdha Chaturvedi

简介：本文讨论了将BART模型用于句子排序任务。将一组打乱的句子组织成一个连贯的文本的任务已被用于评估机器对因果关系的理解和时间关系。作者制定了句子排序任务作为条件文本标记生成问题。作者提出基于变换器的重新排序BART预训练的模型，用于识别给定的一组混乱句子的连贯顺序。该模型采用一组带有句子特定标记的混洗句子作为输入并生成位置序列有序文本中句子的标记。RE-BART在7个数据集上的实现了完美匹配率和Kendall tau的最先进性能。作者执行零样本设置中的评估，展示作者的模型能够很好地概括其他数据集。

论文下载：https://arxiv.org/pdf/2104.07064v2.pdf

标题：谷歌、Deepmind｜SCALE EFFICIENTLY: INSIGHTS FROM PRE-TRAINING AND FINE-TUNING TRANSFORMERS（有效扩展：来自预训练和微调变换器的见解）了解详情

作者：Yi Tay, Donald Metzler等

简介：本文主要讨论了预训练和微调变换器的规模效应。关于变换器架构的扩展行为，仍有许多悬而未决的问题。本文的主要发现如下：(1)作者表明，除了模型大小之外，模型形状对下游微调也很重要，（2）缩放提议在不同的计算区域以不同的方式运行，(3) 广泛采用的T5-base和T5-large尺寸是帕累托低效的。为此，作者提出了改进的缩放提议，作者重新设计的模型可以通过这些提议实现类似的下游微调质量的同时：参数减少50%、并且与广泛采用的T5-base模型相比，训练速度提高了40%。作者公开发布100多个不同T5配置的预训练模型，以方便未来的研究和分析。

代码下载：https://github.com/google-research/google-research/tree/master/scaling-transformers

论文地址：https://arxiv.org/pdf/2109.10686.pdf

标题：北邮、京东、清华|FCM: A Fine-grained Comparison Model for Multi-turn Dialogue Reasoning（FCM：多轮对话推理的细粒度比较模型）了解详情

作者：Xu Wang, Yanyan Lan等

简介：本文研究了对话系统中的候选语句评价。最近，一个新的多轮对话推理任务已提出，以促进对话推理研究。作者提出了一种细粒度比较模型来解决这个问题。受阅读理解方面人类行为的启发，提出了一种比较机制，专注于每个响应候选的表示的细粒度差异。每个候选语句表示与整个历史进行比较，以获得历史一致性表示。此外，每个候选表示和说话人自己之间的一致性信号历史被认为促使模型更喜欢与说话人逻辑一致的候选语句的历史逻辑。最后，以上一致性表示用于输出候选响应的排名列表用于多轮对话推理。在两个公共对话数据集上的实验结果表明，作者的方法高于基线模型。

论文地址：https://arxiv.org/pdf/2109.10510v2.pdf

标题：海法大学、布劳德工程学院、麻省理工 | Fight Fire with Fire: Fine-tuning Hate Detectors using Large Samples of Generated Hate Speech（用火救火：通过生成仇恨言论的大样本，来微调仇恨检测器）了解详情

作者：Tomer Wullach, Amir Adler, Einat Minkov

简介：本文通过GPT生成仇恨语音检测数据、以促进仇恨检测器微调的泛化能力。自动仇恨语音检测由于缺少标记数据集而受到阻碍，导致泛化能力差。作者采用预训练语言模型（LMs）来缓解这个数据瓶颈。作者利用GPT LM从可用的标记示例生成大量合成仇恨语音序列，并利用生成的数据微调大型预训练LMs进行仇恨检测。使用BERT、RoBERTa和ALBERT模型的实验研究表明，这种方法在数据分布内和数据分布间显著且一致地提高了泛化能力。事实上，作者发现生成相关的标记仇恨语音序列：比使用域外（有时也在域内）的人类标记示例的效果更佳。

论文地址：https://arxiv.org/pdf/2109.00591

标题：北京大学、教育部、阿里巴巴 | Raise a Child in Large Language Model: Towards Effective and Generalizable Fine-tuning（大语言模型的继承：走向有效、通用化的子调优）了解详情

作者：Runxin Xu,Fuli Luo,Zhiyuan Zhang, 等

简介：本文提出了大语言模型时代背景下简单、有效、通用的子调优技术。最近的预训练语言模型从数百万个参数扩展到数十亿个参数。因此，在各种下游任务中，需要使用有限的训练语料对一个非常大的预训练模型进行微调。在本文中，作者提出了一种简单而有效的微调技术、即子调优。子调优：通过在向后过程中策略性地屏蔽非子网络的梯度来更新大型预训练模型的参数子集（称为子网络）。在GLUE benchmark中对各种下游任务的实验表明：在四种不同的预训练模型中，子调优始终比vanilla微调的平均分高1.5~8.6分，比先前的微调技术高0.6~1.3分。此外，领域转移和任务转移的实证结果表明，子调优可以获得更大幅度的泛化性能。

论文地址：https://arxiv.org/abs/2109.05687

标题：东京大学、卡内基梅隆大学 | AFROMT: Pretraining Strategies and Reproducible Benchmarks for Translation of 8 African Languages（AfroMT：8 种非洲语言翻译的预训练策略和可重复基准）了解详情

作者： Machel Reid, Junjie Hu, 等

简介：本文提出一种标准化、干净且可重复的机器翻译基准。可重复的基准测试对于推动机器翻译研究的进展至关重要。然而，现有的机器翻译基准大多仅限于高资源或代表性良好的语言。尽管人们对低资源机器翻译越来越感兴趣，但许多非洲语言没有标准化的可重复基准，其中许多被数百万说话者使用，但文字数据数字化程度较低。为了应对这些挑战，本文提出了 AfroMT的机器翻译基准，适用于八种广泛使用的非洲语言。作者还开发了一套用于系统诊断的分析工具，探索了“低资源集中型”的预训练案例、并开发了两种新的基于数据增强的策略--利用词级对齐信息和伪单语数据，用于多语言序列到序列模型的预训练。

论文地址：https://arxiv.org/pdf/2109.04715.pdf

标题：爱丁堡大学、NAVER AI| Efficient Attribute Injection for Pretrained Language Models（预训练语言模型的高效属性注入）了解详情

作者：Reinald Kim Amplayo、 Kang Min Yoo、 Sang-Woo Lee

简介：本文重点研究"高效属性注入"在预训练语言模型的应用方法。通过修改模型的架构，元数据属性可以作为附加输入合并到基于神经的 NLP 模型中，以提高其性能。然而，最近的模型依赖于预训练语言模型 (PLM)，其中以前使用的属性注入技术要么不重要，要么无效。在本文中，作者提出了一种轻量级且内存高效的方法来向 PLM 注入属性。作者扩展适配器、即微型插件前馈模块，以包含独立于文本或与文本联合的属性。为了限制参数的增加，特别是当属性词汇量很大时，作者使用低秩近似和超复杂乘法，显着降低了总参数。作者还引入了训练机制来处理属性可以是多标签或稀疏的域。作者进行了广泛的实验和分析，结果表明：基于美国8个数据集，本研究方法优于以前的属性注入方法、并获取SOTA效果。

论文地址：https://arxiv.org/pdf/2109.07953.pdf

标题：IBM、伦赛拉理工学院 | Can Machines Read Coding Manuals Yet? – A Benchmark for Building Better Language Models for Code Understanding（机器可以阅读编码手册吗？BLANCA--为代码理解构建更好的语言模型的基准）了解详情

作者： Ibrahim Abdelaziz, Julian Dolby等

简介：本文研究了代码理解领域文本工件上的模型基准。代码理解是人工智能越来越重要的应用。理解代码的一个基本方面是理解关于代码的文本，例如文档和论坛讨论。预训练语言模型是各种 NLP 任务的流行方法，现在有各种基准测试（例如GLUE）来帮助改进此类模型的自然语言理解的开发。但是，对于此类模型在有关代码的文本工件上的工作情况知之甚少，而且作者不知道此类评估有任何系统的下游任务集。作者提出了一组基准：BLANCA-编码工件语言模型的基准，它们根据任务评估代码理解。作者评估了当前最先进的语言模型在这些任务上的性能，并表明微调对每个任务都有显著的改进。研究还表明：多任务对BLANCA进行训练有助于构建更好的语言模型来理解代码。

论文地址：https://arxiv.org/pdf/2109.07452.pdf

标题：赫尔辛基大学、剑桥、卡罗琳斯卡学院 | PlotMI: interpretation of pairwise dependencies and positional preferences learned by deep learning models from sequence data（PlotMI：深度学习模型从序列数据中学习到成对依赖关系和位置偏好的解释）了解详情

作者：Tuomo Hartonen, Teemu Kivioja 等

简介：在生物学的深度学习研究中，理解预测模型如何工作逐渐被重视。本文提出了PlotMI，一个基于相互信息的模型解释工具，它可以直观地显示任何在序列数据，如DNA、RNA或氨基酸序列，之上训练的模型的位置偏好和成对的依赖关系。该方法思路是将预训练模型学到的成对和特定位置的依赖性信息投射到一个可以直观可视的更简单的模型中，将该简单模型作为一个过滤器来选择并分析包含所学特征的输入样本子集。PlotMI可以用来比较训练数据中存在的依赖关系和不同模型学到的依赖关系。其优点为它同时对高复杂度序列的大空间进行采样，并可以突出重要特征的位置以及分离模型学到的特征的具体距离。

论文地址：https://doi.org/10.1101/2021.03.14.435285

标题：慕尼黑工大 | Light Attention Predicts Protein Location from the Language of Life（轻注意力从生命的语言中预测蛋白质的亚细胞位置）了解详情

作者：Hannes Staerk, Christian Dallago 等

简介：理解蛋白质功能对描述生物过程很重要，机器学习方法通过学习专家设计的输入特征，利用多重序列比对（MSA）的信息来提升预测效果，而这些信息的产生是很昂贵的。本文展示了使用来自蛋白质语言模型的嵌入来进行有竞争力的亚细胞定位预测任务，而无需MSA。本文的轻量级深度神经网络架构使用了一个softmax加权聚合机制，该机制在序列长度上具有线性复杂性，被称为轻注意力。该机制在一个架构中操作来自几个语言模型（BB、UniRep、SeqVec、ProtBert、ESM-1b和Prot5）的嵌入，有效地聚合了信息并处理了任意序列长度的蛋白序列，并在十类别定位中的表现明显优于最先进的方法。到目前为止，这可能是与MSA相比，只用序列嵌入的预测最优效果。

论文地址：https://doi.org/10.1101/2021.04.25.441334

标题：强生、亚马逊 | LM-GVP: A Generalizable Deep Learning Framework for Protein Property Prediction from Sequence and Structure（LM-GVP：从序列和结构预测蛋白质特性的泛用深度学习框架）了解详情

作者：Zichen Wang, Steven A. Combs 等

简介：蛋白质在生物系统中发挥着许多基本功能，并且可以用于生物治疗，能够根据序列和结构来预测它们的特性是非常有价值的。本文开发了一个新的泛用深度学习框架，LM-GVP，由一个蛋白质语言模型和图神经网络组成，以利用来自一维氨基酸序列和三维蛋白质结构的信息。本文的方法在各种属性预测任务上的表现优于最先进的蛋白质语言模型，包括荧光度、蛋白酶稳定性和来自基因本体（GO）的蛋白质功能。本文还说明了GNN的预测如何指导蛋白质语言更好地利用结构信息的见解。本文设想，本文的深度学习框架将可推广到许多蛋白质属性预测问题，以大大加快蛋白质工程和药物开发。

论文地址：https://doi.org/10.1101/2021.09.21.460852

标题：微软、博拉理工学院 | On the Universality of Deep Contextual Language Models（论深度语言模型的通用性）了解详情

作者：Monojit Choudhury, Sunayana Sitaram 等

简介：深度语言模型因其能够通过预训练单一的模型，然后进行特定任务的微调，迅速扩展到多种任务。由于这一初步成功，预训练的模型被用作 "通用语言模型"，作为跨越不同任务、领域和语言的起点。本文探讨了 "通用性 "的概念，确定了一个通用模型应该能够扩展的七个方面，也就是说，在不同的环境中表现得同样好，以便发挥作用。这七方面分别为语言、多语种、任务、领域、表达媒介、地理和人口以及时间段。本文概述了目前支持模型在这些方面表现的理论和经验结果，以及可能有助于解决其目前一些局限性的扩展。通过这一调查，本文为理解大规模语境语言模型的能力和局限性奠定了基础，并有助于发现研究差距和未来工作的方向，使这些语言模型对不同的应用、用户和语言现象具有包容性和公平性。

论文地址：https://arxiv.org/abs/2109.07140v1

研究动态

标题：rct.ai训练出理解、生成的综合模型：BERT-X、CPM-X、CPM-2-X了解详情

简介：自谷歌、OpenAI、智源发布中文领域超大规模预训练语言模型BERT、GPT-3、“悟道2.0”以来，中文领域同类模型的训练进展备受关注。rct.ai用1张A100训练96小时，训练88万步，得到4.95亿参数的BERT-X模型。BERT-X模型的参数规模达到4.95亿，是BERT-Large的1.5倍，模型层数36层，是目前中国最大中文预训练理解模型。rct.ai基于用4张A100训练142小时，训练31万步得到29亿参数的CPM-X模型。CPM-X模型的参数规模达到29亿，是CPM的1.1倍，模型层数36层，是CPM的1.25倍，是目前中国最大的中文预训练生成模型。rct.ai用2张A100训练60小时，训练20万步得到CPM-2-X模型。CPM-2-X模型是改进的中文预训练模型，其参数规模达到29亿，是CPM-2的1/4；模型层数12层，是CPM-2的1/4。

标题：智源研究院推出《超大规模智能模型产业发展报告》了解详情

编者：黄铁军，文继荣，刘知远，何晓冬，黄松芳等

简介：大模型是“大数据+大算力+强算法”结合的产物，是凝练了大数据内在精华的“隐式知识库”，是实现多种人工智能应用的通用载体。大模型是连接人工智能技术生态和产业生态的桥梁，向下带动基础软硬件发展，向上支撑智能应用百花齐放，是未来整个人工智能生态的核心。基于大模型进行应用开发时，将大模型进行微调或者不进行微调，就可以完成多个应用场景的任务。当前大模型领域较为关注的研究重点包括：大规模的模型参数、创新的模型架构、采用多模态的数据进行预训练和微调、高效且性能更强的预训练和微调方法、模型训练和推理加速方法等。

报告下载：https://event-cdn.baai.ac.cn/file/20210923-01/超大规模智能模型产业发展报告.pdf

如果你正在从事或关注预训练学习研究、实现与应用，欢迎加入“智源社区-预训练-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，或点击阅读原文申请加入（选择“兴趣交流群→预训练”）

智源社区

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
《预训练周刊》第26期：有效扩展：来自预训练和微调变换器的见解、rct.ai训练出5亿参数的BERT-X模型...

No.26智源社区预训练组预训练研究观点资源活动关于周刊本期周刊，我们选择了14篇预训练相关的论文，涉及短语检索、网络结构、文本排序、架构扩展、对话选择、语言检测、模型微调、机器翻译、属性...
复制链接

扫一扫