《预训练周刊》第64期:微调新范式:组合、噪音、指令、自我改进等

No.64

智源社区

预训练组

7c46980492f060e9435fc8ca5a2cffa9.png

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息,《预训练周刊》已经开启“订阅功能”,以后我们会向您自动推送最新版的《预训练周刊》。订阅方法:

方式1:扫描下面二维码,进入《预训练周刊》主页,选择“关注TA”。

3a8cd9656ee32b1d0b72b971515c799c.png

方式2:点击本文下方的“阅读原文”,进入《预训练周刊》Hub社区版,根据内附的详细订阅步骤,完成订阅。

228955af0fa7ffecbadfb5840e0bcb48.jpeg

9911b4e24ef08276391baf0c5280bbc8.jpeg

82a56b488d2c6c6391b689ea8b2be30c.jpeg

4ade0e39583bf314fd618f8253fa5e6d.jpeg

e3627ba046cd34986e188b7ac6acf117.jpeg

关于周刊

本期周刊,我们选择了8篇预训练相关的论文,视觉话题包括对抗预训练、自动驾驶自监督;自然语言话题包括基于信息挖掘的小样本、组合微调、噪音微调、中等模型零样本、大模型自我改进;生命科学话题包括脑认知指导的预训练。此外,在研究动态方面,我们选择了6篇预训练资讯,新工具方面包括中文提示模型、提示学习工具、中文作画工具;其他包括加速代码学习、新微调方式讲座以及关于提示工程的展望的一些最新内容。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

(本期贡献者:申德周 翟珂 吴新刚)

ded68797317d11db49002bf414356d88.jpeg

36454b47a4f69b5fb9dad39782e6e49c.jpeg

f344fc7a4d1cb405688e632cb8806ff1.jpeg

e298dfddb65a7076bfc0156c6727bb63.jpeg

b60fb098e79aa185788c63f0844c7d88.jpeg

论文推荐

【CV研究】

标题:美国机器感知与学习实验室、美国中佛罗里达大学 | Adversarial Pretraining of Self-Supervised Deep Networks: Past, Present and Future(自监督深度网络的对抗性预训练:过去、现在和未来)了解详情

作者:Guo-Jun Qi, Mubarak Shah

简介:本文是自监督深度网络的对抗性预训练的综述。在本文中,作者回顾了自监督深度网络的对抗性预训练,包括卷积神经网络和视觉转换器。与可以访问标记示例的对抗训练不同,对抗预训练很复杂,因为它只能访问未标记示例。为了将对手纳入输入或特征级别的预训练模型,作者发现现有方法主要分为两组:对单个示例施加最坏情况扰动的无内存实例攻击,以及跨示例共享的基于内存的对手迭代。特别是,作者分别回顾了基于对比学习 (CL) 和掩码图像建模 (MIM) 的多个具有代表性的对抗性预训练模型,这是文献中两种流行的自监督预训练方法。作者还回顾了有关计算开销、输入/特征级对手以及上述两组之外的其他对抗性预训练方法的杂项问题。最后,作者讨论了对抗性和合作性预训练之间的关系、统一对抗性 CL 和 MIM 预训练以及对抗性预训练中准确性和鲁棒性之间的权衡的新兴趋势和未来方向。

论文下载:https://arxiv.org/pdf/2210.13463.pdf

标题:牛津、CMU、valeo公司等 | Self-Supervision on Wheels:

Advances in Self-Supervised Learning from Autonomous Driving Data(自动驾驶的自监督:从自动驾驶数据中进行自监督学习的进展)了解详情

作者:Spyros Gidaris、Katerina Fragkiadaki等

简介:本文为ECCV2022自监督自动驾驶教程。自监督学习(SSL)在过去两年中取得了许多令人兴奋的进展,许多新的SSL方法设法达到甚至超过完全监督技术的性能。自动驾驶(AD)代表了SSL方法的一个独特赛道,因为它带来了社区中最大的公共数据集合,并提供了一些最具挑战性的计算机视觉任务:目标检测、深度估计、基于图像的里程测量和定位等。本文整理和扩展了规范的SSL流程(即自监督预训练模型并在下游任务上对其进行调优),以学习真实标签难以计算的任务(例如深度),从而为计算机视觉和机器人技术带来全新的SSL方法。本教程通过AD的基本感知任务的镜头,深入介绍自监督学习的各种旧范式和新范式。具体来说,本教程将涵盖以下主题: 从自动驾驶数据中进行自监督表征学习,深度估计的自监督学习,三维检测和跟踪的自监督学习,里程数测量和定位的自监督学习。。

论文下载:https://gidariss.github.io/ssl-on-wheels-eccv2022/

【NLP研究】

标题:阿姆斯特丹大学、普林斯顿大学、Meta | Don't Prompt, Search! Mining-based Zero-Shot Learning with Language Models(不要提示,搜索!基于挖掘的语言模型零样本学习)了解详情

作者:Mozes van de Kar, Mengzhou Xia, Danqi Chen, Mikel Artetxe

简介:本文研究在零样本场景中优于Prompt的基于挖掘的方法。像 BERT 这样的掩码语言模型,可以通过将下游任务重新定义,为文本填充来以零样本的方式执行文本分类。然而,这种方法对用于提示模型的模板高度敏感,而从业者在严格的零样本设置下设计它们时是盲目的。在本文中,作者提出了一种基于挖掘的替代方法来进行零样本学习。作者不使用Prompt语言模型,而是使用正则表达式从未标记的语料库中挖掘标记示例,可以选择通过Prompt进行过滤,并用于微调预训练模型。作者的方法比Prompt更灵活和可解释,并且在使用可比较的模板时在广泛的任务中更胜一筹。

论文下载:https://arxiv.org/pdf/2210.14803.pdf

标题:美国西北大学、Allen联合 | Learning to Perform Complex Tasks through Compositional Fine-Tuning of Language Models(通过语言模型的组合微调学习执行复杂任务)了解详情

作者:Victor S. Bursztyn, David Demeter, Doug Downey, 等

简介:本文提出组合微调、并建议用于端到端学习的改进。如何有效地编码组合任务结构,一直是人工智能的核心挑战。最近在思路提示链(chain of thought prompting)方面的工作表明,对于非常大的神经语言模型 (LMs),明确展示目标任务中涉及的推理步骤可能会比仅关注目标任务的端到端学习提高性能。然而,由于依赖于大量预训练的 LM,思维提示链有很大的局限性。在这项工作中,作者提出了组合微调 (CFT):一种基于将目标任务显式分解为组件任务的方法,然后在此类组件任务的课程中微调较小的 LM。作者将 CFT 应用于世界旅行和当地餐饮两个领域的推荐任务,以及之前研究过的推理任务(运动理解)。作者表明:即使在数据量相同的情况下,CFT 也优于端到端学习,并且随着更多组件任务通过微调进行建模,CFT 会变得更好。与思维链Prompt相比,CFT比使用LM时表现良好、而CFT仅为其大小7.4%,并且CFT且适用于在预训练期间数据不可用的任务域。

论文下载:https://arxiv.org/pdf/2210.12607.pdf

标题:北航、美团 | PATS: Sensitivity-aware Noisy Learning for Pretrained Language Models(PATS:预训练语言模型的敏感性感知噪声学习)了解详情

作者:Yupeng Zhang, Hongzhi Zhang, Sirui Wang, Wei Wu, Zhoujun Li

简介:本文研究新的噪声训练方法来优化预训练语言模型 (PLM)的微调。广泛的 NLP 任务受益于PLM 的微调。然而,在直接微调的模型中观察到许多对下游任务贡献较小的冗余参数。作者认为预训练和下游任务之间的差距阻碍了这些冗余参数的训练,并导致整个模型的性能欠佳。在本文中,作者提出了 PATS(根据灵敏度的扰动):一种噪声训练机制,旨在考虑每个参数在下游任务中的重要性、以帮助微调 PLM。PATS 的主要思想是给敏感度较低的参数添加较大的噪声,反之亦然,以激活更多参数对下游任务的贡献,而不会对敏感的参数产生太大影响。在GLUE基准测试的八个任务上进行的大量实验表明:PATS可以持续提高PLM在下游任务上的性能,同时参数的敏感性更为集中,这在小数据集上尤为明显。

论文下载:https://arxiv.org/pdf/2210.12403.pdf

标题:IDEA 研究院、早稻田大学、清华 | Zero-Shot Learners for Natural Language Understanding via a Unified Multiple Choice Perspective(通过统一多选择角度实现自然语言理解的零样本学习)了解详情

作者:Ping Yang, Junjie Wang等

简介:本文来自封神榜团队,研究了中等参数模型实现零样本能力。自预训练技术被提出以来,NLP 界一直存在着一个不可能三角、即一个模型不能同时满足:中等模型大小(10 亿以下),SOTA 的零样本性能,SOTA 的微调性能。本文打破了这一魔咒,提供了一个灵活高效的解决思路。本文提出的 UniMC 在拥有模型参数量很小(仅仅是亿级)和 SOTA 的微调能力的前提下,同时还能拥有(与 5400 亿的 PaLM 相当的) SOTA 的零样本/小样本性能。本文主要思路是将 NLU 任务转化为多项选择任务。即给定文本、问题和选项,输出每个选项的概率,而不需要将选项生成出来。本文对BERT 的自编码结构进行了修改,经过预训练掩码语言模型之后,利用选择掩码模型、选择预测和 掩码语言模型进行多选择训练,最后使用选择掩码模型和选择预测进行零样本预测。

论文下载:https://arxiv.org/pdf/2210.08590.pdf

标题:UIUC、谷歌 | Large Language Models Can Self-Improve(大语言模型可以自我改进)了解详情

作者:Jiaxin Huang, Shixiang Shane Gu等

简介:本文研究了一种大语言模型无监督微调的方式。大语言模型(LLMs)在各种任务中都取得了出色的表现,然而对LLM进行微调需要大量的监督信息。另一方面,人类可以在没有外部输入的情况下通过自我思考来提高推理能力。对此,本文证明了LLM也能够在只有未标记的数据集的情况下进行自我改进,使用预训练大模型,利用思维链提示和自洽性,为无标签的问题生成高置信度的理性增强答案,并使用这些自生成的数据作为标签输出来微调LLM。本文的方法提高了540B参数的LLM的一般推理能力,在达到了最先进的水平的同时、不需要任何真实标签。本文也进行了消融研究,并表明推理部分的微调对于自我改进至关重要。

论文下载:https://arxiv.org/pdf/2210.11610v2.pdf

【生命科学研究】

标题:哈工大SCIR | 脑认知指导的预训练语言模型了解详情

作者:丁效,陈薄文等

简介:本文研究了利用认知语言处理信号(如眼球追踪或EEG数据)指导BERT等预训练模型的问题。现有的方法通常利用认知数据对预训练模型进行微调,忽略了文本和认知信号之间的语义差距。为了填补这一空白,作者提出了CogBERT这个框架,它可以从认知数据中诱导出细粒度的认知特征,并通过自适应调整不同NLP任务的认知特征的权重将认知特征纳入BERT。实验结果表明:(1) 认知指导下的预训练模型在10个NLP任务上可以一致地比基线预训练模型表现更好。(2) 不同的认知特征对不同的NLP任务有不同的贡献。基于这一观察,作者给出为什么认知数据对自然语言理解有帮助的一个细化解释。(3) 预训练模型的不同transformer层应该编码不同的认知特征,词汇级的认知特征在transformer层底部,语义级的认知特征在transformer层顶部。(4) 注意力可视化证明了CogBERT可以与人类的凝视模式保持一致,并提高其自然语言理解能力。

论文下载:https://aclanthology.org/2022.coling-1.284/

135731560a69c7e00c204ea40331ef27.jpeg

45d86adcbfbb106ce4dbb68990eddf6d.jpeg

e17b6f3d06ee4006ec32abbbc576f877.jpeg

8e46841badeddab31e72cb503ae544c3.jpeg

6172d71f5a4423ebac7e4bc200a6356b.jpeg

工具代码

【工具资源】

标题:PromptCLUE:大规模多任务Prompt预训练中文开源模型了解详情

简介:中文上的三大统一:统一模型框架,统一任务形式,统一应用方式。支持几十个不同类型的任务,具有较好的零样本学习能力和少样本学习能力。针对理解类任务,如分类、情感分析、抽取等,可以自定义标签体系;针对生成任务,可以进行采样自由生成。千亿中文token上大规模预训练,亿级中文任务数据上完成训练,训练任务超过150+。比base版平均任务提升7个点+;具有更好的理解、生成和抽取能力,并且支持文本改写、纠错、知识图谱问答。统一模型框架:采用Text-to-Text的生成式预训练模型进行统一建模。统一任务形式:Prompt统一不同的NLP任务间的差异,转化为统一的text-to-text数据形式。统一应用方式:对目标任务形成拿来即用的模型,下游应用时都可转化为统一的prompt自适应方式,进行零样本/小样本测试。

项目地址: https://github.com/clue-ai/PromptCLUE

DEMO地址:www.CLUEbenchmarks.com/clueai.html

标题:OpenBMB X 清华NLP | 大模型提示学习利器OpenPrompt了解详情

简介:OpenPrompt是在OpenBMB体系架构图中占据关键位置的大模型提示学习利器,与 OpenDelta共同组成大模型微调套件。它提供一套完整流畅的 Prompt Learning Pipeline,其中基于Pytorch的基类设计定义了Prompt-learning的基本方法和功能,可以支持各种灵活的拓展,也兼容了最通用最流行的深度学习和预训练模型框架,而且在pipeline 设计和代码风格上也完美契合 huggingface 框架。一言蔽之,OpenPrompt 提供统一接口的提示学习模版语言,使得开发者可以用最低的学习成本上手。

代码地址:https://github.com/thunlp/OpenPrompt

标题:百度 | 中文AI作画大模型文心ERNIE-ViLG 2.0了解详情

简介:AI 作画在全世界越来越盛行。近日,百度发布知识增强跨模态大模型—— ERNIE-ViLG 2.0,在 AI 作画领域取得新突破。该模型采用基于知识增强算法的混合降噪专家建模,是全球首个知识增强的 AI 作画大模型,也是目前全球参数规模最大的 AI 作画大模型。据了解,ERNIE-ViLG 2.0 在文本生成图像公开权威评测集 MS-COCO 和人工盲评上均超越了 Stable Diffusion、DALL-E 2 等模型,取得了当前该领域的世界最好效果,在语义可控性、图像清晰度、中国文化理解等方面均展现出了显著优势。

DEMO地址:https://wenxin.baidu.com/ernie-vilg

【代码学习】

标题:法国Lefebvre Dalloz公司 | 一行代码12倍加速BERT推理了解详情

作者:Lefebvre Sarrut

简介:通过这个open Kernl 库,用户只需一行代码,在 GPU 上就能以快几倍的速度运行 Pytorch transformer 模型,从而极大的加快了模型的推理速度。具体而言,有了 Kernl 的加持,Bert 的推理速度比 Hugging Face 基线快了 12 倍。这一成果主要得益于 Kernl 用新的 OpenAI 编程语言 Triton 、CUDA graphs和TorchDynamo 编写了定制的 GPU 内核。项目作者表示,未来还将在预热速度、训练支持、多 GPU 支持、量化和硬件支持等多方面改进推理引擎 Kernl,下为通过optimize_model函数实现优化的代码。

import torch
from transformers import AutoModel
from kernl.model_optimization import optimize_model
model = AutoModel.from_pretrained(model_name).eval().cuda()
optimized_model = optimize_model(model)
inputs = ...
with torch.inference_mode(), torch.cuda.amp.autocast():
    outputs = optimized_model(**inputs)

代码地址:https://github.com/ELS-RD/kernl/

331d6dc793471ef475990740bec6392d.jpeg

532faa1a5398142da04ea86c7616c50f.jpeg

5c24fd8499abf64322d888c88394efb8.jpeg

28618f82849e9a61dabaa3ea08810488.jpeg

ea51ead238ad1fab3889f32b5b273adc.jpeg

活动预告

标题:谷歌高级软件工程师侯乐 | 语言模型的新微调方式 了解详情

简介:由智源社区主办的「智源Live 第27期丨谷歌高级软件工程师侯乐:语言模型的新微调方式」将于11月9日(周二)09:00-10:00在线举办,谷歌Core ML团队高级软件工程师侯乐将作主旨报告。目前真实应用中常用方法为用标注数据微调现成的预训练语言模型,但是这种微调需要大量的人工标注,这些标注数据的获取非常昂贵。另一方面,无论语言模型的应用场景是什么,模型本身需要的推理能力和知识是共通的。在我们的研究中发现,通过用超大规模高质量数据对模型进行微调,能够提高语言模型的推理能力,使模型显得更有知识,并提高模型在零训练样本和少训练样本情况下的泛化能力。细节上本次报告将重点关注大规模指令微调和大型语言模型的自我改进能力这两部分。

d0ca128241468fd913fa78d6691ec872.jpeg

5201b3358fa4a7280fa4145140628004.jpeg

c4921a710666e21a42846ceae10a597e.jpeg

6fd17d882fba962c0aed70ea287c2e7a.jpeg

82fcb8e96a7f3226e82e0c54078d2e38.jpeg

观点分享

标题:吴恩达 | Prompt engineering的现状与未来了解详情

简介:最近,吴恩达在最新一期人工智能周讯《The Batch》(Oct 19,2022)撰文,分享了关于Prompt engineering(提示工程)的看法。他很好奇提示工程(即编写文本提示以生成想要的输出的人工智能系统的艺术)是否会成为人工智能的主导用户界面?随着文本生成器(如GPT-3和Jurassic)和图像生成器(如DALL·E、Midtridge和Stable Diffusion)的兴起,人们对如何创建提示以获得想要的输出越来越感兴趣。他提出3个展望,希望能找到更高效、更容易理解的方法来控制它们的输出,比如绘制草图是另一种很好的交流方式;同样,控制大型语言模型仍然是一个重要问题;最后一个是透明度,文本提示可以很好地指定一个松散的概念,但新的UI可以更容易地获得想要的结果。

ec97f6400fb204857f293b015b23a1c3.jpeg

如果你正在从事或关注预训练学习研究、实现与应用,欢迎加入“智源社区-预训练-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

请扫描下方二维码加入预训练群(备注:“姓名+单位+预训练”才会验证进群哦)

ccdb507a30cac9ef9106749f8cdbc55f.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值