《预训练周刊》第53期:代码生成、通用任务变换器

No.53

智源社区

预训练组

583c3ff6df1d52b83e7e19c1cd08779e.png

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息,《预训练周刊》已经开启“订阅功能”,以后我们会向您自动推送最新版的《预训练周刊》。订阅方法:

方式1:扫描下面二维码,进入《预训练周刊》主页,选择“关注TA”。

b5058d90fb99669ad35fe3f095671f5f.png

方式2:点击本文下方的“阅读原文”,进入《预训练周刊》Hub社区版,根据内附的详细订阅步骤,完成订阅。

01e6cd1b0a58a979c88eab0748c349e6.jpeg

6e3c0f489fd90839453d3b363eec7663.jpeg

69ddf6863ef2224597765f47c9e1a73f.jpeg

34ffb1da7dd69af247f6eeaed65cccc7.jpeg

fb20b34ec099fece21293b7adcde157b.jpeg

关于周刊

本期周刊,我们选择了7篇预训练相关的论文,涉及多模态、结构化数据、代码生成、蛋白间作用、通用任务、蛋白表示和蛋白模型可解释性的探索。此外,在研究动态方面,我们选择了4篇预训练资讯,将介绍相声语言、多语言模型、语言模型历史、多语翻译和大模型发展方面的一些最新内容。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

(本期贡献者:申德周 翟珂 吴新刚)

dabed7c0a8e71332b68fa735e4f2db9e.jpeg

97a7c73409991c31bbf47d031ddffde1.jpeg

796a70169e295e892acd74479a260101.jpeg

35923583d520e83420fe57a34bb2cb4f.jpeg

49f5ec8a33b90add2b5325f56e3ec4cc.jpeg

论文推荐

标题:越南VinAI 、新加坡南洋理工 | Vision-and-Language Pretraining(视觉和语言预训练)了解详情

作者:Thong Nguyen, Cong-Duy Nguyen, Xiaobao Wu,等

简介:本文是视觉语言预训练的综述调研。随着图像-文本对数据量的迅速增长和视觉和语言(V&L)任务的多样性,学者们在该研究领域引入了大量的深度学习模型。此外,近年来,迁移学习在计算机视觉的图像分类、目标检测等任务以及自然语言处理的问答、机器翻译等方面也取得了巨大的成功。继承迁移学习的精神, V&L 的研究工作在大规模数据集上设计了多种预训练技术,以提高下游任务的性能。本文的目的是对当代 V&L 预训练模型进行全面修订。特别是,作者对预训练方法进行分类和描述,以及最先进的视觉和语言预训练模型的总结。此外,还提供了训练数据集和下游任务列表,以进一步完善 V&L 预训练的观点。最后,作者进一步讨论未来研究的众多方向。

论文下载:https://arxiv.org/pdf/2207.01772

标题:Yandex、HSE大学 | Revisiting Pretraining Objectives for Tabular Deep Learning(重新审视表格深度学习的预训练目标)了解详情

作者:Ivan Rubachev, Artem Alekberov, Yury Gorishniy,等

简介:本文尝试确认表格深度学习(DL)预训练的最佳实践。近期针对表格数据的深度学习模型目前正在与基于决策树 (GBDT) 的传统 ML 模型展开竞争。与 GBDT 不同,深度模型还可以从预训练中受益,这是 DL 用于视觉和 NLP 的主力。对于表格问题,业界已提出了多种预训练方法,但尚不完全清楚预训练是否提供一致的显着改进、以及应该使用哪种方法,因为这些方法通常不会相互比较,或者比较仅限于最简单的 MLP 架构。在这项工作中,作者的目标是确定预训练表格 DL 模型的最佳实践,这些模型可以普遍应用于不同的数据集和架构。在作者的研究结果中,作者表明在预训练阶段使用对象目标标签有利于下游性能,并提倡多个目标感知预训练目标。总体而言,作者的实验表明:正确执行的预训练显着提高了表格 DL 模型的性能,这通常导致它们优于 GBDT。

论文下载: https://arxiv.org/pdf/2207.03208

标题:Akhilesh Deepak Gotmare、Salesforce | CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning(通过预训练模型和深度强化学习掌握代码生成)了解详情

作者:Hung Le, Yue Wang, Akhilesh Deepak Gotmare,等

简介:本文研究基于预训练模型(LMs)和深度强化(RL)学习的代码生成的新框架。程序合成或代码生成旨在生成满足问题规范的程序。最近使用大规模预训练LMs的方法显示了有希望的结果,但有一些关键的局限性。特别是,它们通常遵循标准的有监督微调过程,仅从自然语言问题描述和基本真理程序对中训练代码生成模型。这种范式在很大程度上忽略了问题规范中一些重要但潜在有用的信号(如单元测试),因此在解决复杂的未见的编码任务时,往往会导致性能不佳。为了解决这些局限性,作者提出了CodeRL:一种通过预训练LMs和RL实现程序合成任务的新框架。对于模型主干,作者扩展了CodeT5的编码器-解码器架构,具有增强的学习目标、更大的模型尺寸和更好的预训练数据。作者的方法不仅在具有挑战性的应用程序基准上获得了新的SOTA结果,而且在更简单的MBPP基准上显示了强大的零样本迁移能力。

论文下载:https://arxiv.org/pdf/2207.01780

标题:九州工大 | Cross-attention PHV: Prediction of human and virus protein-protein interactions using cross-attention–based neural networks(交叉注意力PHV:使用基于交叉注意力的神经网络预测人类和病毒的蛋白质-蛋白质相互作用)了解详情

作者:Sho Tsukiyama, Hiroyuki Kurata

简介:本文展示了蛋白预训练的应用。病毒将遗传物质纳入宿主基因组,劫持宿主细胞功能,如细胞周期和细胞凋亡。在这些病毒过程中,蛋白质-蛋白质相互作用(PPI)发挥了关键作用。因此,识别人类和病毒之间的PPI对于理解感染机制和宿主对病毒感染的免疫反应以及发现有效药物至关重要。本文通过实现交叉注意力机制和一维卷积神经网络这两项关键技术,开发了一种新型的预测器,命名为Cross-attention PHV。交叉注意力机制在提高预测和泛化能力方面非常有效,本方法通过对word2vec生成的特征矩阵应用1D-CNN降低了计算负担,将蛋白质序列的可允许长度扩展到9000个氨基酸残基。Cross-attention PHV在基准数据集的表现超过了现有的最先进的模型,并准确地预测了未知病毒的PPI,还成功预测了人类SARS-CoV-2的PPIs。

论文下载:https://doi.org/10.1101/2022.07.03.498630

标题:清华 | Flowformer: Linearizing Transformers with Conservation Flows(Flowformer: 任务通用的线性复杂度Transformer)了解详情

作者:Haixu Wu, Mingsheng Long等

简介:本文研究了注意力机制存在的二次复杂度问题。近年来,得益于注意力机制的通用关系建模能力,Transformer在众多领域已经展现出了优秀的效果。但是,其核心组件注意力机制随着输入序列的增长呈现二次复杂度,严重阻碍了Transformer在长序列处理上的应用,同时也限制了其扩展至大模型的能力。为解决上述困难,受到网络流理论启发,本文提出了Flowformer模型,它具有以下特点:线性复杂度,可以处理数千长度的输入序列;没有引入新的归纳偏好,保持了原有注意力机制的通用建模能力;任务通用,在长序列、视觉、自然语言、时间序列、强化学习五大任务上取得优秀效果。在长序列建模应用上,如蛋白质结构预测、长文本理解等,Flowformer具有良好的应用潜力。

论文下载:https://arxiv.org/pdf/2202.06258

标题:慕尼黑工大 | SETH predicts nuances of residue disorder from protein embeddings(SETH从蛋白质嵌入中预测残基无序的细微差别)了解详情

作者:Dagmar Ilzhoefer, Michael Heinzinger, Burkhard Rost

简介:本文展示了蛋白预训练的应用。自从AlphaFold2发布后,对数百万种蛋白质三维结构的预测可以很快完成。然而,许多蛋白质有所谓的内在无序区(IDRs),它们没有明确的三维结构却具有特定生物学功能。这些IDRs与一些疾病,包括阿尔茨海默病有关。许多专家方法通过将复杂的机器学习模型与专家制作的输入特征和来自多重序列比对的进化信息相结合预测IDRs,这些输入特征中的一些并不总是可用的,而且生成时的计算成本很高,限制了它们的应用。本文提出了新的预测方法SETH,它用只使用单一序列作为输入的预训练蛋白质语言模型ProtT5产生的嵌入结合一个相对较浅的卷积神经网络中预测残基无序性,效果已经超过了更复杂的最先进的解决方案。本文的方法捕捉到了无序性的细微差别,展现出了超越其他预测器的表现。

论文下载:https://doi.org/10.1101/2022.06.23.497276

标题:奥斯陆大学等 | Advancing protein language models with linguistics: a roadmap for improved interpretability(用语言学推进蛋白质语言模型:改善可解释性的路线图)了解详情

作者:Victor Greiff, Dag Trygve Truslew Haug等

简介:本文讨论了蛋白预训练的可解释性。基于深度神经网络的语言模型(LMs)主要是黑箱模型,因此在解释上具有挑战性,目前的蛋白质LM方法并没有对序列-功能关系的基本理解,阻碍了基于规则的治疗药物开发。本文认为,从语言学,一个专门从自然语言数据中提取分析性规则的领域,获得的指导可以帮助建立更多学会了相关领域的特定规则的可解释的蛋白质LM。与自然语言LM相比,蛋白质序列数据和语言序列数据之间的差异要求在蛋白质LM中整合更多特定领域的知识。本文提供了一个基于语言学的蛋白质LM选择路线图,涉及训练数据、标记化、标记嵌入、序列嵌入和模型解释。将语言学与蛋白质LM相结合,可以开发出下一代可解释的机器学习模型,并有可能揭示出序列-功能关系背后的生物机制。

论文下载:https://arxiv.org/pdf/2207.00982

82b8156d08b86a90e9a2d388d7fb3eca.jpeg

970c739070ae021e15f2e8387c5d6fa2.jpeg

4f621466a95eba2f5c73a67aa570dba9.jpeg

4ee65f7f3c8f5de74f1c0c180e14d624.jpeg

96ee9a87b560c660c97c21ab7a824771.jpeg

研究动态

标题:香港中文大学、北京超动力软件有限公司等 | Can Language Models Make Fun? A Case Study in Chinese Comical Crosstalk(语言模型能带来幽默吗?中国喜剧相声个案研究)了解详情

作者:Benyou Wang, Xiangbo Wu, Xiaokang Liu,等

简介:本文研究了相声语言模型。语言是人类交流的主要工具,其中幽默是最吸引人的部分之一。使用计算机生成像人类一样的自然语言,即自然语言生成 (NLG),已广泛用于对话系统、聊天机器人、机器翻译以及计算机辅助创建(如创意生成、脚本编写)。然而,自然语言的幽默方面研究相对较少,尤其是在预训练语言模型的时代。在这项工作中,作者旨在初步测试 NLG 是否可以像人类一样产生幽默。作者建立了一个新的数据集,其中包含大量数字化的中国相声脚本,(这是一种自 1800 年代以来流行的中国表演艺术、称为“相声”)。作者对各种生成方法进行了基准测试,包括从头开始训练的 Seq2seq、微调的中规模 PLM 和大规模 PLM(有和没有微调)。作者得出结论:使用大规模 PLM 可以大大改善幽默的生成,但仍处于起步阶段。 

论文下载:https://arxiv.org/pdf/2207.00735.pdf

代码地址:https://github.com/anonNo2/crosstalk-generation

标题:字节跳动 AI Lab 总监李航:语言模型的过去、现在和未来了解详情

简介:在本文中,李航博士首先介绍了马尔可夫和香农基于概率论研究的语言建模的基本概念。之后,他讨论了乔姆斯基提出的基于形式语言理论的语言模型,描述了作为传统语言模型的扩展的神经语言模型的定义。其后,他解释了预训练语言模型的基本思想,最后讨论了神经语言建模方法的优势和局限性,并对未来的趋势进行预测。

标题:Meta AI | NLLB一个语言都不能少,200+语言任意互译的大模型了解详情

简介:Meta AI在发布开源大型预训练模型OPT之后,再次发布最新成果NLLB,该模型的中文分为简体繁体和粤语三种,而除了中英法日语等常用语种外,还包括了许多小众语言。Meta称,他们计划先将这个技术应用于Facebook和Instagram,以提升这些平台上小众语言的计算机翻译水平,同时,这也是他们元宇宙计划的一部分。据研究者介绍,该模型主要通过3个方面来解决一些语言语料少的问题。其一是为语料少的语言自动构建高质量的数据集。研究者建立了一个多对多的多语言数据集Flores-200。其二,是对200种语言建模,研究者开发了一个语言识别系统LID,标记出某段文字是用哪种语言写的。其三,是将一个人工翻译的评估基准:FLORES的覆盖范围扩大2倍,来评估每一种语言的翻译质量。目前Meta AI已将这些内容开源在fariseq仓库里面。

标题:Meta AI | 万亿参数后,大模型会持续增长吗?了解详情

作者:Luke Zettlemoyer

简介:Zettlemoyer教授围绕以下三个问题展开了讨论:1)语言模型的规模是否会持续增长 2)如何最好地利用语言模型 3)其它模型预训练的监督方式。Zettlemoyer教授回到了演讲最初提出的三个问题:Zettlemoyer教授表示目前模型的规模还在继续增长、研究者们仍会投入更多的算力,在未来条件计算可能会得到重大突破;我们仍未找到充分利用语言模型的方式,零次学习和少样本学习都是值得研究的方向,不过这也取决于追求的性能以及代码的开源程度;Zettlemoyer教授指出,文本数据不是必备的,研究人员还可以尝试使用其它结构或者模态提供监督信号。

446f5cb73b80f4c6ffde1eeb7fc043fd.jpeg

如果你正在从事或关注预训练学习研究、实现与应用,欢迎加入“智源社区-预训练-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

请扫描下方二维码加入预训练群(备注:“姓名+单位+预训练”才会验证进群哦)

141b4b28e56a857cf9f49b40c65a2504.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值