《预训练周刊》第42期: 通用模型、训练计算优化、多模态训练

No.42

智源社区

预训练组

01232f73d38f489e961e0dd4849fb728.png

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息,《预训练周刊》已经开启“订阅功能”,以后我们会向您自动推送最新版的《预训练周刊》。订阅方法:

方式1:扫描下面二维码,进入《预训练周刊》主页,选择“关注TA”。

fb33883b8de5eec14c788547ef5084a4.png

方式2:点击本文下方的“阅读原文”,进入《预训练周刊》Hub社区版,根据内附的详细订阅步骤,完成订阅。

7c7395e2c6c7add9e386c623d4673ee0.png

bf34055d4c35d8c95dd34d416e2f4b37.png

b7ad3c192d51be150d731bbbc650b444.png

9e4fc754513a9b2f5a18f8e923982925.png

e6137097ccb61e818468803b95bf661a.png

关于周刊

本期周刊,我们选择了8篇预训练相关的论文,涉及模型微调、视频理解、文档链接表征、模型量化、药物蛋白关系、细胞功能注释、蛋白生成和药物分子学习的探索。此外,在研究动态方面,我们选择了5篇预训练资讯,将介绍通用模型、计算优化、多模态影响、代码生成和变换器分类方面的一些最新内容。在资源推荐方面,我们选择了1篇预训练资源,将介绍大模型应用方面的一些最新内容。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

(本期贡献者:申德周 翟珂 吴新刚)

eac909c95a0e316e66d421bb7dd89bc9.png

45dc26d27fdad2440906ec823f5ff9ca.png

9cd5640ffc3013f9342be19c21d32185.png

c045ed35de1812ff6d78427bd5eba99b.png

3477cda7900384fe1d8ac72a79fc5579.png

论文推荐

标题:Meta、华盛顿大学等 | PERFECT: Prompt-free and Efficient Few-shot Learning with Language Models(使用语言模型进行无提示且高效的小样本学习)了解详情

作者:Rabeeh Karimi Mahabadi, Luke Zettlemoyer, James Henderson,等

简介:本文研究多标记固定长度分类器方法、实现小样本NLP的高效微调。当前对预训练掩码语言模型 (PLM) 进行少量微调的方法需要为每个新任务精心设计提示和语言器,以将示例转换为 PLM 可以评分的完形填空格式。本文中提出了 PERFECT:一种简单而有效的 PLM 微调方法,无需依赖任何此类人工参与、只需 32 个数据点即可非常有效。作者将手动设计的任务提示替换为任务特定的适配器,实现了高效的微调、并将内存和存储成本分别降低大约 5 倍和 100 倍。同时作者在微调期间学习新的多标记标签嵌入、不依赖于模型词汇表,并且允许避免复杂的自回归解码。这些嵌入不仅可以从有限的数据中学习,而且可以使训练和推理速度提高近 100 倍。对各种小样本 NLP 任务的实验表明,PERFECT 在简单高效的同时也优于现有的最先进的小样本学习方法。

论文下载:https://arxiv.org/pdf/2204.01172.pdf

代码下载:https://github.com/rabeehk/perfect

标题:中科大、微软、IDEA | Large-Scale Pre-training for Person Re-identification with Noisy Labels(大规模预训练:带噪声标签的行人重识别)了解详情

作者:Dengpan Fu, Dongdong Chen, Hao Yang,等

简介:本文旨在解决带有噪声标签的人员重新识别(Re-ID)的预训练问题。为了设置预训练任务,作者对现有未标记 Re-ID 数据集“LUPerson”的原始视频应用了一个简单的在线多对象跟踪系统,并构建了名为“LUPerson-NL”的噪声标记变体。由于这些从 tracklets 自动派生的 ID 标签不可避免地包含噪声,因此作者开发了一个利用噪声标签 (PNL) 的大规模预训练框架,该框架由三个学习模块组成:有监督的 Re-ID 学习、基于原型的对比学习和标签- 引导对比学习。作者证明:直接从原始视频中学习是一种很有前途的预训练替代方案,它利用空间和时间相关性作为弱监督。通过应用相同的监督 Re-ID 方法 MGN,作者的预训练模型在 CUHK03、DukeMTMC 和 MSMT17 上分别比无监督预训练对应物提高了 5.7%、2.2%、2.3%。在小规模或小样本设置下性能提升更为显着,表明学习表示具有更好的可迁移性。

论文下载:https://arxiv.org/pdf/2203.16533.pdf

标题:斯坦福大学 | LinkBERT: Pretraining Language Models with Document Links(使用文档链接预训练语言模型)了解详情

作者:Michihiro Yasunaga, Jure Leskovec, Percy Liang

简介:本文研究通过文档链接突破BERT只能对单文档建模的议题。语言模型(LM)预训练可以从文本语料库中学习各种知识,帮助下游任务。但是,BERT 等现有方法对单个文档进行建模,并且不捕获跨文档的依赖关系或知识。在这项工作中,作者提出了 LinkBERT:一种利用了文档之间的链接(例如超链接)的 LM 预训练方法 。给定一个文本语料库,作者将其视为文档图,并通过将链接的文档放置在相同的上下文中来创建 LM 输入。然后,作者使用两个联合自我监督目标对 LM 进行预训练:(1)掩码语言建模、(2)文档关系预测。作者表明:LinkBERT 在跨两个领域的各种下游任务上优于 BERT。LinkBERT 对于多跳推理和小样本 QA 尤其有效,作者的生物医学 LinkBERT 在各种 BioNLP 任务上创造了新的技术水平。

论文下载:https://arxiv.org/pdf/2203.15827.pdf

代码下载:https://github.com/michiyasunaga/LinkBERT

标题:腾讯 | MKQ-BERT: Quantized BERT with 4-bits Weights and Activations(具有 4 位权重和激活的量化 BERT)了解详情

作者:Hanlin Tang, Xipeng Zhang, Kai Liu, 等

简介:本文研究通过压缩级别的量化方法、以减少BERT模型的计算开销。最近,预训练的基于 Transformer 的语言模型(例如 BERT),在许多自然语言处理 (NLP) 任务中显示出优于传统方法的巨大优势。然而,部署这些模型的计算成本对于资源受限的设备来说是令人望而却步的。减轻这种计算开销的一种方法是将原始模型量化为更少的位表示,之前的工作已经证明,作者最多可以将 BERT 的权重和激活量化为 8 位,而不会降低其性能。在这项工作中,作者提出了 MKQ-BERT,它进一步提高了压缩级别并使用 4 位进行量化(作者是第一个成功部署 4 位 BERT 并实现端到端推理加速的工作)。作者的结果表明,作者可以在不降低模型精度的情况下实现 5.3 倍的比特减少,并且在基于变换器的模型中:一个 int4 层的推理速度比 float32 层快 15 倍。

论文下载:https://arxiv.org/pdf/2203.13483

标题:NCBI、NIH | A Novel Sequence Labeling Framework for Extracting Drug-Protein Relations from Biomedical Literature(从生物医学文献中提取药物-蛋白关系的新序列标注框架)了解详情

作者:Ling Luo, Po-Ting Lai, Chih-Hsuan Wei, Zhiyong Lu

简介:本文介绍了一种生物文本序列标注方法。自动提取化合物/药物和基因/蛋白质之间的相互作用对药物发现、药物重定向、药物设计和生物医学知识图谱的构建大有裨益。本文介绍了一种对BioCreative VII挑战赛的DrugProt赛道任务的方法。除了在关系提取任务中广泛使用的传统文本分类框架外,本文提出了一个新的序列标注框架,用于药物-蛋白质关系提取。本文首先全面比较了两个框架的5种生物医学预训练语言模型,然后探索了几种组合方法来进一步提高最终的性能。在挑战赛中,提交的最佳方案在官方测试集上取得了0.795的F1分数。之后作者发现到序列标记框架比文本分类框架更有效,并暨此取得了更好的性能,最后通过多数投票的序列标注模型集成在测试集上取得了0.800的最佳F1分数。

论文下载:https://doi.org/10.1101/2022.03.31.486574

标题:卡耐基梅隆、麦吉尔大学 | Unsupervised cell functional annotation for single-cell RNA-Seq(单细胞RNA-Seq的无监督细胞功能注释)了解详情

作者:Dongshunyi Li,  Jun Ding,  Ziv Bar-Joseph

简介:本文介绍了单细胞RNA-Seq预训练。分析单细胞RNA测序数据(scRNA-Seq)的重要步骤是分配细胞类型。在大多数情况下,分配的方法是通过首先在低维空间对细胞进行聚类,然后将细胞类型分配到不同的聚类中。为了克服噪音并改善细胞类型的分配效果,本文开发了UNIFAN,这是一种预训练方法,可以同时使用已知的基因组对细胞进行聚类和注释。UNIFAN结合了所有基因的低维表征法和细胞特定的基因集得分来确定聚类。我们将UNIFAN应用于来自几个不同器官的人类和小鼠scRNA-Seq数据集,通过使用基因组的知识,UNIFAN大大超过了先前开发的用于scRNA-Seq数据聚类的方法。UNIFAN分配给不同聚类的基因组为该聚类所代表的细胞类型提供了强有力的证据,使注释更加容易。

论文下载:https://doi.org/10.1101/2021.11.20.469410

标题:麻省理工等 | Few Shot Protein Generation(小样本蛋白生成)了解详情

作者:Soumya Ram, Tristan Bepler

简介:本文提出了MSA2Prot Transformer,一个基于Transformer的直接以MSA为条件的蛋白质序列生成模型。与现有的学习蛋白质家族生成模型的方法不同,MSA2Prot Transformer将序列生成的条件直接建立在对多序列比对的学习编码上,避免了对特定家族模型的拟合。通过对Pfam中大量整理的MSA进行预训练,MSA2Prot Transformer对未经训练的蛋白质家族有很好的泛化能力,并且优于传统的家族建模方法,特别是当MSA较小时。该模型允许对包括插入和删除以及替换在内的序列进行有效的采样和精确的对数似然评估,而不需要逐个在MSA上进行训练或微调。本文在不同的突变体数据集上证明了MSA2Prot实现了最先进的突变体功能预测性能。最后,MSA2Prot通过只关注功能突变体的自适应采样,展示了序列生成的新能力。

论文下载:https://arxiv.org/pdf/2204.01168v1.pdf

标题:华为等 | PanGu Drug Model: Learn a Molecule Like a Human(盘古药物模型:像人一样学习分子)了解详情

作者:Hualiang Jiang, Mingyue Zheng, Nan Qiao等

简介:本文介绍了盘古药物大模型。在化学课上,学生要学习两种分子表征,即分子式和结构式,并学会将它们从一种方式转化为另一种方式。受此启发,本文开发了一个新的深度学习架构,使用图到序列的不对称条件变分自动编码器,称为PanGu药物模型,它可以从两个表征中自适应描述分子,并提高下游药物发现任务的性能。在用17亿个小分子进行预训练后,模型在20个药物发现任务中取得了最先进的结果,如分子性质预测(包括预测ADMET属性、化合物-靶点相互作用、药物-药物相互作用和化学反应产量),分子生成和分子优化。PanGu分子生成器生成了一个新的药物筛选库,其中有1亿个类药小分子,其新颖度为99.68%,该库可以用来补充现有的化合物数据库,这说明模型可以有效地生成与给定分布具有相似理化性质的新化合物。

论文下载:https://doi.org/10.1101/2022.03.31.485886

5ae15b7e56284321a495ca8a5bbb2103.png

7453ad2b16e69e9e751128b49b837102.png

531d99f7abefbabb359bd15bfe0acd12.png

4f28ed1cdeebc3c188b7fb796bf4248f.png

18363489aae04e8dc7ae33599f692f0a.png

研究动态

标题:PaLM:Google基于Pathways系统训练的5400亿参数全能大模型,BERT之父操刀了解详情

简介:在探讨现有 AI 模型的局限时,谷歌人工智能主管Jeff Dean曾经说过,今天的人工智能系统总是从头开始学习新问题。以这种方式学习每项新任务不仅需要更长的时间,而且还需要更多的数据,效率非常低。理想的发展模式应该是训练一个模型来做成千上万件事情。为了实现这一愿景,他所在的团队去年提出了一种名叫「Pathways」的通用 AI 架构。Pathways 旨在用一个架构同时处理多项任务,并且拥有快速学习新任务、更好地理解世界的能力。前段时间,该团队终于公布了 Pathways 的论文。PATHWAYS使用了一种新的异步分布式数据流设计。这种设计允许PATHWAYS采用单控制器模型,从而更容易表达复杂的新并行模式。实验结果表明,当在2048 个TPU 上运行SPMD(single program multiple data)计算时,PATHWAYS的性能(加速器利用率接近 100%)可以媲美 SOTA 系统。

论文下载:https://arxiv.org/pdf/2204.02311v1.pdf

标题:DeepMind论文:训练计算优化的语言大模型了解详情

简介:研究人员发现目前的大模型竞赛中,由于大家更喜欢强调参数多,而训练数据往往不变,模型其实是训练不足的。通过在50亿到5000亿token的数据上实验训练7000万到160亿以上参数的模型,研究人员发现参数规模应该和训练数据token数同步增大,能达到计算最优。论文训练了名为chinchilla的计算优化模型,计算预算与Gopher一样,但参数是700亿,训练数据4倍,发现chinchilla在很大范围的下游任务上都显著超越了Gopher (280B), GPT-3 (175B), Jurassic-1 (178B)和 Megatron-Turing NLG (530B) 。这也意味着chinchilla用于微调和推理的计算量显著减少,大大促进了下游任务的计算量。值得注意的是,chinchilla在MMLU基准上达到了SOTA(67.5%准确率),比Gopher提升了7%。

论文下载:https://arxiv.org/pdf/2203.15556

标题:OpenAI CEO Sam Altman谈DALL•E 2的更深远影响了解详情

简介:OpenAI CEO Sam Altman写了一篇博客,从另一个角度,描述了他理解的这项技术可能带来的更深远的影响,他认为它有几个值得注意的原因:1.这是一个新的计算机界面趋势即将形成的例子:你用自然语言或上下文线索说出想要的东西,计算机就会去做。2.它确实看起来能够 "理解 "许多层次的概念,以及它们如何以复杂的方式相互联系。3.DALL-E 2是一个能帮助艺术家和插图画家更有创造力的工具,但它也能创造一个 "完整的作品"。4.它提醒我们,关于人工智能的预测是非常困难的。5.这是一个例子,在这个世界上,好的想法是我们能做的极限,而不是具体的技能。6.好的一面很好,但这个模型足够强大,也很容易来做不好的一面。

标题:比特币核心开发者:OpenAI Codex解决了XY问题了解详情

简介:XY问题是软件开发以及团队协作时常见的沟通问题,简单说就是寻找解决方案的时候,求助者往往会问非所需,解答者也就经常答非所问。因为沟通不畅,会在错误的方向上浪费大量资源和时间。比特币核心开发者Greg Maxwell发现,使用OpenAI Codex的时候,因为你不必担心计算机系统像人那样产生各种误解,你的表达也可以更直接没必要整那么多心理活动,反而避免了XY问题。

标题:Transformer最新总结:分类和目录大全了解详情

简介:这些年各种各样的transformer涌现出来,各有各的优势,但是他们的名字却不能直白的看出该版本的transformer到底做了什么。这篇文章的目的就是把所有流行的transformer进行清晰简单的分类,以便大家对transformer家族快速梳理。

a28411844e5d16b668fde1be55de052f.png

fa8a8c7fa0dd6dd7951abf5c19bfeaa1.png

e3648357854bc0deccfba0b999e9a679.png

61e57ecc2f7ec5bbe89c2254f014d234.png

141dbb4f6030337a6baa610744e6979a.png

资源推荐

标题:OpenBMB:让大模型飞入千家万户了解详情

简介:近年来,随着预训练语言模型技术引发人工智能领域性能革命,大规模预训练模型技术的成熟标志着“大模型时代”的到来。然而在大模型的具体应用与落地中,却存在着“训练难、微调难、应用难”三大挑战。为此,OpenBMB团队发起了OpenBMB开源社区,旨在打造大规模预训练语言模型库与相关工具,加速百亿级以上大模型的训练、微调与推理,降低大模型使用门槛,实现大模型的标准化、普及化和实用化,让大模型飞入千家万户。

代码下载:https://github.com/OpenBMB

a1d7f65d1acd8abc2a6234905e83eb37.png

如果你正在从事或关注预训练学习研究、实现与应用,欢迎加入“智源社区-预训练-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

请扫描下方二维码加入预训练群(备注:“姓名+单位+预训练”才会验证进群哦)

e20bab46bb5dd9e7d2a2b221da981269.png

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值