《预训练周刊》第63期：微软视觉语言预训练综述、最新大模型课程

智源社区

于 2022-10-27 15:43:52 发布

阅读量633

点赞数

文章标签：人工智能大数据编程语言计算机视觉机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5ODg0MTAwMw==&mid=2247530976&idx=2&sn=b47fe72ab43d14f284c2811281e93c9d&chksm=febc3a24c9cbb332e4d33b3db2b13e7dee8b0dbb1a326a58a14115819ce2dbf6a7c922437710&scene=126&&sessionid=0

版权

No.63

智源社区

预训练组

预

训

练

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息，《预训练周刊》已经开启“订阅功能”，以后我们会向您自动推送最新版的《预训练周刊》。订阅方法：

方式1：扫描下面二维码，进入《预训练周刊》主页，选择“关注TA”。

方式2：点击本文下方的“阅读原文”，进入《预训练周刊》Hub社区版，根据内附的详细订阅步骤，完成订阅。

关于周刊

本期周刊，我们选择了8篇来自顶尖高校和大厂的预训练相关的论文，自然语言话题中包括新的指令微调方法、双向语言知识预训练、持续预训练；视觉话题包括新复杂电影数据集；多模态话题包括基于原型的提示学习、视觉语言综述；基础研究话题包括卷积注意力融合；生命科学话题包括结构预测。此外，在研究动态方面，我们选择了3篇预训练资讯，将介绍普林斯顿最新大模型课程、尤洋教授的AI大模型训练分享、以及投资领域的一些最新内容。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）

论文推荐

【NLP研究】

标题：谷歌 | Scaling Instruction-Finetuned Language Models（扩展指令微调语言模型）了解详情

作者：Hyung Won Chung，Le Hou，Shayne Longpre,等

简介：本文提出新的微调方式：指令微调。在一组数据集上微调语言模型已被证明可以提高模型性能和对看不见的任务的泛化。在本文中，作者探讨了指令微调，特别关注（1）扩展任务数量，（2）扩展模型大小，以及（3）对思维链数据进行微调。作者发现具有上述方面的指令微调显着提高了各种模型类（PaLM、T5、U-PaLM）、prompt设置（zero-shot、few-shot、CoT）和评估基准（MMLU、BBH、 TyDiQA、MGSM、开放式生成）。例如：在 1.8K 任务上进行指令微调的 Flan-PaLM 540B 大大优于 PALM 540B（平均 + 9.4%）。Flan-PaLM 540B 在多个基准测试中实现了最先进的性能，例如：在五次 MMLU 上达到 75.2%。作者还公开发布了 Flan-T5 检查点，即使与更大的模型（例如 PaLM 62B）相比，它也能实现强大的小样本性能。总体而言，指令微调是提高预训练语言模型的性能和可用性的通用方法。

论文下载：https://arxiv.org/pdf/2210.11416.pdf

标题：斯坦福大学、瑞士洛桑理工学院等联合 | Deep Bidirectional Language-Knowledge Graph Pretraining（深度双向语言知识图谱预训练）了解详情

作者：Michihiro Yasunaga, Antoine Bosselut, Hongyu Ren, 等

简介：本文研究文本和知识图谱大规模预训练深度联合的模型。已证明对文本进行语言模型 (LM) 预训练有助于各种下游 NLP 任务。最近的工作表明，知识图谱 (KG) 可以补充文本数据，提供结构化的背景知识，为推理提供有用的支撑。然而，这些作品并未经过预训练以大规模学习这两种模式的深度融合，从而限制了获得文本和 KG 完全联合表示的潜力。在本文，作者提出了深度双向语言知识图谱预训练（DRAGON），一种自我监督的方法、用于从文本和 KG 大规模预训练深度联合语言知识基础模型。实验表明：DRAGON 在各种下游任务上优于现有的 LM 和 LM+KG 模型。特别是，DRAGON 在关于语言和知识的复杂推理和低资源 QA取得了显着的性能。

论文下载：https://arxiv.org/pdf/2210.09338.pdf

标题：MIT等｜ Continued Pretraining for Better Zero- and Few-Shot Promptability（继续预训练以获得零样本和小样本更好的提示性能）了解详情

作者：Zhaofeng Wu, Robert L. Logan IV, Pete Walsh, 等

简介：本文研究通过持续预训练提升更好的可提示性。最近引入的语言模型Prompt提示方法可以在零样本和小样本场景中实现高精度，同时需要很少甚至不需要学习的特定任务参数。尽管如此，这些方法仍然经常落后于完整的模型微调。在这项工作中，作者调查了一个专门的持续预训练阶段是否可以提高“提示性能”，即自然语言Prompt提示的零样本性能或少样本性能。作者揭示了现有持续预训练方法缺乏及时性的状况。作者通过彻底的大规模实验来填补了当前的方法学空白。本文展示了一个简单的方法，即在多任务学习期间包含可训练Prompt提示的持续预训练，与现有方法相比，在零样本和少样本场景中的可提示性提高了 31%。

论文下载：https://arxiv.org/pdf/2210.10258.pdf

【多模态研究】

标题：百度 | Prompting through Prototype: A Prototype-based Prompt Learning on Pretrained Vision-Language Models（通过原型进行提示：基于原型的预训练视觉语言模型的Prompt 学习）了解详情

作者：Yue Zhang, Hongliang Fei, Dingcheng Li,等

简介：本文聚焦研究预训练视觉语言模型上的小样本图像识别任务、并提出基于原型的Prompt学习方法PTP，以克服当前的局限性。最近的工作表明，Prompt 学习对于训练数据有限的小样本学习特别有用。根据Prompt提示的粒度，这些方法大致可以分为任务级提示和实例级提示。任务级提示方法为所有输入样本学习一个通用提示，这对于捕获不同类之间的细微差异是有效的但整体上无效。实例级提示方法学习每个输入的特定提示，虽然有效但效率低下。在这项工作中，作者开发了一种新颖的基于原型的快速学习方法来克服上述的局限性。特别是，作者专注于预训练视觉语言模型（PVLMs）上的小样本图像识别任务，并开发了一种通过原型（PTP）进行提示的方法。实验结果表明：PTP 是一种利用潜在知识并适应各种 PVLM 的有效方法。此外，作者还讨论了在小样本学习的背景下Prompt 学习和参数有效微调的优缺点。

论文下载：https://arxiv.org/pdf/2210.10841.pdf

标题：微软 | Vision-Language Pre-training: Basics, Recent Advances, and Future Trends（视觉语言预训练:基础、最新进展和未来趋势）了解详情

作者：Zhe Gan , Jianfeng Gao等

简介：本文基于CVPR2022的教程，综述了近年来发展起来的多模态智能视觉语言预训练(VLP)方法。本文将这些方法分为三类: (1) 用于图像-文本任务的VLP，如图像标题、图像-文本检索、视觉问题回答和视觉基础; (2) 用于核心计算机视觉任务的VLP，如(开集)图像分类、目标检测和分割;以及 (3) 视频文本任务的VLP，如视频字幕、视频文本检索和视频问答。对于每个类别，都对最先进的方法进行了全面的回顾，并使用特定的系统和模型作为案例研究，讨论已经取得的进展和仍然面临的挑战。对于每个类别，讨论了研究界正在积极探索的高级主题，如大基础模型、统一建模、上下文内小样本学习、知识、鲁棒性和现实中的计算机视觉等。

论文下载：https://arxiv.org/pdf/2210.09263.pdf

教程链接：https://www.bilibili.com/video/BV1Xa411W7un/?vd_source=36c95221716f9643e89a58ff57229235

【CV研究】

标题：南加州大学、谷歌 | MovieCLIP: Visual Scene Recognition in Movies（电影中的视觉场景识别）了解详情

作者：Digbalay Bose , Rajat Hebbar , Krishna Somandepalli ,等

简介：本文研究视觉场景转换任务、并提出具有复杂叙事结构的电影数据集MovieCLIP。电影等长篇媒体具有复杂的叙事结构，其事件跨越了丰富多样的环境视觉场景。与电影中的视觉场景相关的特定领域挑战包括过渡、人物覆盖以及各种现实生活和虚构场景。电影中现有的视觉场景数据集分类有限，不考虑电影剪辑中的视觉场景转换。在这项工作中，作者首先自动策划一个新的、广泛的、以电影为中心的分类法，该分类法包含从电影剧本和辅助的基于网络的视频数据集派生的 179 个场景标签。基于该方法、作者使用CLIP对32K电影剪辑中的112万个镜头进行弱标记，而不是昂贵的手动注释。作者提供基于弱标记数据集MovieCLIP上训练的基线视觉模型，并在由人类评估者验证的独立数据集上对其进行评估。实验表明：利用在 MovieCLIP 上预训练的模型的特征有利于下游任务。

论文下载：https://arxiv.org/pdf/2210.11065.pdf

【生命科学研究】

标题：InstaDeep公司、UCL等 | So ManyFolds, So Little Time: Efficient Protein Structure Prediction With PLMs and MSAs（超短时间超多fold：用预训练模型和MSA进行高效的蛋白质结构预测）了解详情

作者：Karim Beguir, Arthur Flajolet等

简介：本文研究预训练模型和MSA在结构预测上的作用比较。目前最强蛋白结构预测模型Alphafold的训练和推理需要大量的计算，而且非常依赖多序列比对（MSA）中包含的进化信息，而这些信息对于某些靶点来说可能并不适用。本文介绍了一个精简的AlphaFold架构，它仍然提供了良好的性能并大大降低了计算负担。与最近的方法如OmegaFold和ESMFold相一致，本文的模型最初被训练为仅从序列预测结构，利用预训练的ESM-2蛋白质语言模型的嵌入。然而将这种方法与根据MSA信息训练的同等模型进行比较，发现后者仍能提供性能提升，即使是最先进的预训练模型也不能轻易取代同源序列的进化信息。本文最后训练了一个可以从预训练模型和MSA的输入中组合进行预测，或者只选择一个进行预测，并在这三种输入模式中的任何一种都获得了类似于在该环境下单独训练的模型的准确度，同时也证明了这些信息是互补的。

论文下载：https://doi.org/10.1101/2022.10.15.511553

【基础研究】

标题：香港理工、深圳云天励飞 | Fast-ParC：用于ConvNets和ViTs的位置感知全局核（Fast-ParC: Position Aware Global Kernel for ConvNets and ViTs）了解详情

作者：Tao Yang, Haokui Zhang等

简介：本文结合ConvNets和ViT的优势来设计新的基础神经网络算子，称为位置感知循环卷积（ParC）及其加速版本Fast-ParC。ParC算子通过使用全局核和循环卷积来捕获全局特征，同时通过位置嵌入来保持位置敏感性。Fast-ParC使用快速傅里叶变换将ParC的O（n2）时间复杂度进一步降低为O（n log n）。这种加速使得在具有大型特征映射的模型的早期阶段使用全局卷积成为可能，但仍保持与使用3x3或7x7内核相当的总体计算成本。具体操作包括：将ViT转换为纯ConvNet架构，以获得更广泛的硬件支持和更高的推理速度；在ConvNets的深层替换传统的卷积，通过扩大有效感受野来提高准确性。实验结果表明：ParC操作可以有效地扩大传统ConvNets的感受野，并且在所有三种流行的视觉任务（图像分类、目标检测和语义分割）中，采用所提出的操作都有利于ViT和ConvNet模型。

论文下载：https://arxiv.org/pdf/2210.04020.pdf

课程活动

标题：普林斯顿陈丹琦｜最新《大语言模型理解》2022秋季课程了解详情

简介：普林斯顿2022年秋季的高级研究生课程，大语言模型理解近期引起的关注。该课程旨在涵盖围绕预训练语言模型的前沿研究课题，将讨论它们的技术基础(BERT、GPT、T5模型、专家混合模型、基于检索的模型)、新出现的功能(知识、推理、少样本学习、上下文学习)、微调和适应、系统设计以及安全和伦理。课程将涵盖每个主题，并深入讨论各种重要论文。本课程的门槛是学生都应上过机器学习和NLP课程、并熟悉诸如transformer等深度学习模型。

课程链接：https://www.cs.princeton.edu/courses/archive/fall22/cos597G/

标题：新国立尤洋｜快速高效AI大模型训练和部署

简介：新加坡国立大学教授尤洋将于10月27日下午2:30在青源talk分享以Colossal-AI为代表的快速高效AI大模型训练和部署。该分享会聚焦于将尖端的人工智能技术部署到现实世界的应用中，这是具有挑战性的，训练GPT-3模型需要300万美元。为了使人工智能更有效率，尤洋团队建立了Colossal-AI，它使人工智能系统在不损失精度的情况下运行得更快、更便宜。Colossal-AI是一个开源的系统，允许研究人员和工程师在低端GPU上训练大型模型。Colossal-AI是可扩展人工智能领域发展最快的开源项目之一，在GitHub上有5000颗星，并被全球数百家机构使用，包括IBM、蚂蚁集团、沃尔玛、牛津、HPE和甲骨文。课程活动除了在智源官方，也会在哔哩哔哩进行直播。

活动参与：https://event.baai.ac.cn/activities/567

行业资讯

标题：大模型投资热：Google正在与Cohere谈判投资2亿美元，NVIDIA也在谈了解详情

作者：Berber Jin，Miles Kruppa

简介：本咨询来自华尔街日报，Alphabet公司旗下的谷歌涨幅0.94%。据熟悉此事的人士透露，谷歌正在洽谈向人工智能初创公司Cohere Inc.投资至少2亿美元，这是大型科技公司在该领域军备竞赛升级的另一个迹象。Cohere公司成立于2019年，是AI大模型四小龙之一，位于多伦多大学。创始人兼CEO Aidan Gomez曾在谷歌实习，师从深度学习之父Hinton，是最早的Transformer论文 Attention is all you need 作者之一。它创建了自然语言处理软件，包括聊天机器人的工具和其他可以理解人类语音和文本的功能。去年11月，该公司宣布与谷歌建立多年的合作关系，由其云计算部门为Cohere提供训练其软件模型所需的计算能力。此前公司已经融资1.7亿美元。投资方包括老虎基金等，天使投资人则包括图灵奖得主 Geoffrey Hinton、GAN 之父 Ian Goodfellow、Uber 首席科学家 Raquel Urtasun、英伟达多伦多研究实验室主任 Sanja Fidler 以及斯坦福大学教授李飞飞等。

HUB地址：https://hub.baai.ac.cn/view/21174