大模型周报丨Auto-Instruct下一个大模型开卷台阶?DALL-E 3论文公布等重磅工作来袭

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。

本周精选了10篇LLM领域的优秀论文,为了方便大家阅读,只列出了论文标题、作者、AMiner AI综述等信息,如果感兴趣可扫码查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

1. Auto-Instruct: Automatic Instruction Generation and Ranking for Black-Box Language Models

这篇论文介绍了一种名为 Auto-Instruct 的方法,用于自动提高向大型语言模型(LLM)提供的指令的质量。该方法利用 LLM 的生成能力为给定任务生成多种候选指令,然后使用一种训练于多种 575 个现有 NLP 任务的评分模型对它们进行排名。在 118 个领域外任务的实验中,Auto-Instruct 超过了人类编写的指令和现有的 LLM 生成的指令基线。此外,即使对于那些没有包含在其训练过程中的其他 LLM,我们的方法也表现出显著的泛化能力。

在这里插入图片描述

链接:https://www.aminer.cn/pub/6535d747939a5f408295c42e/?f=cs

2. Contrastive Prefence Learning: Learning from Human Feedback without RL

这篇论文介绍了一种名为对比偏好学习(CPL)的新算法,该算法可以从人类反馈中学习最优策略,而无需学习奖励函数。传统的强化学习从人类反馈(RLHF)方法分为两个阶段:首先,使用人类偏好学习奖励函数;然后,通过强化学习(RL)优化所学奖励以使模型与人类意图对齐。然而,这种范式不仅基于对人类偏好的错误假设,而且由于策略梯度或 bootstrapping 在 RL 阶段导致的优化挑战,还导致难以处理的优化问题。为了解决这些问题,现有的 RLHF 方法限制自己仅在上下文性随机化设置(例如大型语言模型)或限制观察维数(例如基于状态的机器人技术)。

通过引入一种基于后悔的人类偏好模型来优化人类反馈的行为的新算法,我们克服了这些局限。利用最大熵原理,我们推导出对比偏好学习(CPL),一种无需学习奖励函数即可从偏好中学习最优策略的算法,从而绕过了 RL 的需求。CPL 是完全离线的,仅使用简单的对比目标,并可以应用于任意 MDP。这使得 CPL 可以优雅地扩展到高维和序列 RLHF 问题,同时比以前的方法更简单。

在这里插入图片描述

链接:https://www.aminer.cn/pub/6535d747939a5f408295c635/?f=cs

3. SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding

这篇论文介绍了"上下文预训练"(In-Context Pretraining)这一新方法,用于训练大型语言模型(LMs)。现有的预训练流程通过将随机短文档拼接在一起来创建输入上下文,但这些先前的文档无法为预测下一个文档提供信号。而"上下文预训练"则是将语言模型在相关文档序列上进行预训练,从而明确鼓励模型阅读和跨越文档边界进行推理。通过简单地改变文档排序,使每个上下文包含相关文档,并直接应用现有的预训练流程,我们可以实现"上下文预训练"。但是,文档排序问题具有挑战性,因为数据量达到数十亿,我们希望对每一份文档最大化上下文相似性而不重复任何数据。为了解决这个问题,我们引入了高效的近邻搜索和图遍历算法来寻找相关文档和构建一致的输入上下文。实验结果表明,"上下文预训练"能够简单且大规模地显著提高 LM 的性能,在需要更复杂上下文推理的任务中(包括上下文学习、阅读理解、对先前上下文的忠实度、长上下文推理和检索增强),都取得了明显的改进(+8%、+15%、+16%、+5%、+9%)。

在这里插入图片描述

链接:https://www.aminer.cn/pub/65387a3d939a5f4082980293/?f=cs

4. ToolChain: Efficient Action Space Navigation in Large Language Models with A Search**

这篇论文介绍了一种名为 ToolChain的方法,用于解决大型语言模型(LLM)在处理复杂现实问题时面临的行动空间导航问题。该方法基于 A搜索算法,将整个行动空间视为一棵决策树,每个节点代表可能参与解决方案计划的 API 函数调用。通过结合任务特定的成本函数设计,ToolChain能够有效地剪枝可能涉及错误行动的高成本分支,找出最短路径作为解决方案。在多个工具使用和推理任务上的大量实验证明,ToolChain能够在扩展的行动空间内平衡探索和利用,在规划和推理任务上分别比最先进的基线高 3.1% 和 3.5%,同时分别需要 7.35 倍和 2.31 倍的时间。

在这里插入图片描述

链接:https://www.aminer.cn/pub/6535d747939a5f408295c495/?f=cs

5. Matryoshka Diffusion Models

这篇论文介绍了Matryoshka扩散模型(MDM),这是一个端到端的高分辨率图像和视频合成框架。现有的扩散模型生成高分辨率图像和视频通常采用 这篇论文介绍了一种名为Matryoshka Diffusion Models(MDM)的高分辨率图像和视频合成的端到端框架。现有的扩散模型生成高维模型仍然面临着计算和优化方面的挑战,因此学习高维模型仍然是一项艰巨的任务。在本文中,作者提出了一种扩散过程,可以同时在多个分辨率下联合去噪输入,并使用嵌套的UNet架构,其中小尺度输入的特征和参数嵌套在大型输入的特征和参数中。此外,MDM允许从低分辨率到高分辨率的渐进训练计划,从而在优化高分辨率生成方面取得了显著的改进。作者在各种基准测试中展示了他们方法的有效性,包括类条件图像生成、高分辨率文本到图像和文本到视频应用。值得注意的是,他们可以在高达1024x1024像素的分辨率下训练一个像素空间模型,并使用仅包含1200万张图片的CC12M数据集展示了强大的零散泛化能力。

在这里插入图片描述

链接:https://www.aminer.cn/pub/65372d08939a5f40823b2cf5/?f=cs

6. In-Context Learning Creates Task Vectors

这篇论文探讨了大型语言模型(LLMs)中的上下文学习(ICL)机制。尽管ICL已经成为一种强大且新兴的学习范式,但其内在机制仍不太为人所理解。尤其是将其映射到“标准”机器学习框架中时,即使用训练集 S S S来寻找某个假设类中的最佳拟合函数 f ( x ) f(x) f(x)。本文通过展示ICL学习的函数结构通常非常简单:它们对应于仅使用查询 x x x和从训练集计算出的单个“任务向量”的变压器LLM。因此,ICL可以被视为将 S S S压缩成一个任务向量 θ ( S ) \boldsymbol{\theta}(S) θ(S),然后使用此任务向量来调节变换器以产生输出。本文通过在多种模型和任务上进行全面的实验来支持上述主张。

在这里插入图片描述

链接:https://www.aminer.cn/pub/65387a42939a5f40829806ab/?f=cs

7. JudgeLM: Fine-tuned Large Language Models are Scalable Judges

这篇论文介绍了 JudgeLM 方法,它通过微调大型语言模型(LLMs)来作为可扩展的评估者,以便在开放场景中更有效地评估 LLMs。作者提出了一个大规模、高质量的全面数据集,用于微调高性能评估者,并提出了一个新的评估评估者的基准。他们从 7B、13B 到 33B 参数的不同规模上训练 JudgeLM,并对其能力和行为进行了系统分析。他们分析了在将 LLM 作为评估者进行微调时存在的关键偏见,并将其视为位置偏见、知识偏见和格式偏见。为了解决这些问题,JudgeLM 引入了一系列技巧,包括交换增强、参考支持和参考丢弃,以显着提高评估者的性能。JudgeLM 在 PandaLM 基准测试和作者提出的新基准测试上都取得了最先进的评估者性能。JudgeLM 高效且易于使用,JudgeLM-7B 仅需要 3 分钟即可使用 8 个 A100 GPU 评估 5K 个样本。JudgeLM 与教师评估者的意见一致性很高,达到超过 90% 的共识,甚至超过了人与人之间的共识。JudgeLM 还展示了在其他方面的扩展能力,包括单答案、多模态模型、多个答案和多轮对话的评估。

在这里插入图片描述

链接:https://www.aminer.cn/pub/653b1d19939a5f40829951fd/?f=cs

8. Tuna: Instruction Tuning using Feedback from Large Language Models

这篇论文介绍了 Tuna 方法,它是一种利用大型语言模型的反馈进行指令调整的方法。通过使用更强大的大型语言模型的直接输出,如 Instruct-GPT 和 GPT-4,来调整开源大型语言模型 (LLM) 如 LLaMA,已经被证明是一种成本效益高的方法,可以将其行为与人类偏好对齐。然而,指令调整后的模型每个指令只看到一个响应,缺乏潜在更好响应的知识。在本文中,作者提出了使用其新颖的概率排名和上下文排名方法来微调指令调整后的 LLM,以增加生成更好响应的可能性。概率排名使指令调整后的模型从教师 LLM 继承高质量和低质量响应的相对排名。另一方面,使用上下文排名学习允许模型使用更强 LLM 的上下文理解能力来细化其自己的响应分布。此外,作者将概率排名和上下文排名方法依次应用于指令调整后的 LLM。得到的模型,作者称之为 Tuna,在 Super Natural Instructions(119 个测试任务)、LMentry(25 个测试任务)、Vicuna QA 等任务上表现出色,甚至优于一些强大的强化学习基线。作者的代码和数据可以在 https://github.com/microsoft/LMOps 上找到。

在这里插入图片描述

链接:https://www.aminer.cn/pub/6535d747939a5f408295c533/?f=cs

9. QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models

这篇论文介绍了一种名为 QMoE 的新压缩和执行框架,用于解决大规模语言模型(LLM)推理成本高的问题。通过稀疏路由,混合专家(MoE)架构可以实现更快速、更准确的模型,但代价是模型参数数量庞大。例如,SwitchTransformer-c2048 模型有 1.6 万亿个参数,需要 3.2TB 的加速器内存才能高效运行,这使得实际部署具有挑战性和昂贵。QMoE 框架包括一个可扩展的算法,可以将万亿参数的 MoE 压缩到每个参数不到 1 比特,并且与定制的 GPU 解码内核共同设计了一种自定义格式,以实现高效的端到端压缩推理,相对于未压缩执行的运行时开销较小。具体来说,QMoE 可以在单个 GPU 上将 1.6 万亿参数的 SwitchTransformer-c2048 模型压缩到小于 160GB(20 倍压缩,0.8 比特每参数),且只损失很小的准确性,在不到一天的时间内完成。这使得万亿参数的模型首次能够在负担得起的商品硬件上运行,例如单个带有 4 个 NVIDIA A6000 或 8 个 NVIDIA 3090 GPU 服务器,且与理想未压缩推理相比,运行时开销不到 5%。源代码和压缩模型可以在 http://github.com/IST-DASLab/qmoe 上找到。

在这里插入图片描述

链接:https://www.aminer.cn/pub/6539d1d1939a5f4082230c45/?f=cs

10. Improving Image Generation with Better Captions

这篇论文研究了如何通过更好的字幕来提高图像生成效果。作者发现,现有的文本到图像模型在遵循详细图像描述方面存在困难,常常忽略一些词或混淆提示的意义。他们认为,这一问题源于训练数据集中的噪声和不准确的图像字幕。为了解决这个问题,作者训练了一个定制的图像字幕生成器,并用它重新为训练数据集生成字幕。然后,作者训练了几个文本到图像模型,并发现通过训练这些合成的字幕,可以可靠地提高模型遵循提示的能力。最后,作者利用这些发现构建了 DALL-E 3:一个新的文本到图像生成系统,并在针对提示跟随、连贯性和美学设计的评估中对其性能进行了基准测试,发现其表现优于竞争对手。为了便于未来的研究,作者发布了这些评估的样本和代码,以便继续优化文本到图像系统的重要方面。

在这里插入图片描述

链接:https://www.aminer.cn/pub/65325de4a196276d21d6afcb/?f=cs

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值