大模型日报｜今日必读的6篇大模型论文

最新推荐文章于 2024-07-16 09:37:15 发布

学术头条

最新推荐文章于 2024-07-16 09:37:15 发布

阅读量642

点赞数 15

分类专栏：每日大模型论文文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/AMiner2006/article/details/137927844

版权

每日大模型论文专栏收录该内容

67 篇文章 71 订阅

订阅专栏

在这里插入图片描述
大家好，今日必读的大模型论文来啦！

1.Google DeepMind 新研究：多样本上下文学习

目前，大型语言模型（LLMs）最擅长的是 “少样本上下文学习”（ICL）—— 即在推理时从上下文中提供的少数几个示例中学习，而不进行任何权重更新。新扩展的上下文窗口允许用数百或数千个案例来研究 ICL——多样本模式，从少样本到多样本，在各种生成性和判别性任务中观察到显著的性能提升。

然而，虽然多样本 ICL 前景广阔，但可能会受到人类生成示例可用数量的瓶颈制约。

为此，来自 Google DeepMind 的研究团队探索了两种新的设置：强化 ICL 和无监督 ICL。强化 ICL 使用模型生成的思维链理由来代替人类示例；无监督 ICL 则完全取消了提示中的理由，只用特定领域的问题来提示模型。他们发现，强化型和无监督型 ICL 在多轮推理，尤其是在复杂推理任务中都非常有效。

实验证明，与少样本学习不同，多样本学习在覆盖预训练偏差方面是有效的，并可以学习具有数值输入的高维函数。他们的分析还揭示了下一个 token 预测损失作为下游 ICL 性能指标的局限性。

论文链接：
https://arxiv.org/abs/2404.11018

2.英伟达将 AlphaFold 初始训练时间缩短至 10 小时

AlphaFold2 被誉为蛋白质折叠领域的一项突破，可以快速预测蛋白质结构，准确度达到实验室水平。

然而，它的实现不包括必要的训练代码。OpenFold 是 AlphaFold 的第一个可训练的公开重新实现。AlphaFold 的训练程序耗时过长，而且在扩展到更多计算资源时，其优势也会逐渐减弱。

在这项工作中，他们对基于 Openfold 的 AlphaFold 训练过程进行了全面的分析，发现低效通信和开销占主导地位的计算是阻碍 AlphaFold 训练有效扩展的关键因素。

他们提出了一种系统的训练方法 ScaleFold，专门针对这些因素进行了优化。ScaleFold 成功地将 AlphaFold 训练扩展到 2080 个 NVIDIA H100 GPU 上，具有很高的资源利用率。在 MLPerf HPC v3.0 基准测试中，ScaleFold 在 7.51 分钟内完成了 OpenFold 基准测试，速度比基准测试提高了 6 倍多。当从头开始训练 AlphaFold 模型时，ScaleFold 只用了 10 个小时就完成了预训练，比 AlphaFold 原始预训练基线所需的 7 天时间有了显著提高。

论文链接：
https://arxiv.org/abs/2404.11068

3.MoA：新型“文生图”扩散模型个性化架构

Snap 研究团队提出了一种新的架构——混合注意力（MoA），用于文本到图像扩散模型个性化。受大型语言模型（LLMs）中使用的专家混合机制（Mixture-of-Experts mechanism）的启发，MoA 在两个注意力路径之间分配生成工作量：个性化分支和非个性化先验分支。

MoA 的设计目的是通过将注意力层固定在先验分支中来保留原始模型的先验性，同时通过个性化分支尽量减少对生成过程的干预，该分支学会将主题嵌入到先验分支生成的布局和上下文中。一种新颖的路由机制可以管理各层像素在这些分支中的分布，从而优化个性化和通用内容创建的融合。

经过训练后，MoA 就能帮助创建高质量的个性化图像，这些图像包含多个主体，其构图和交互方式与原始模型生成的图像一样多样化。重要的是，MoA 增强了模型原有能力与新增强的个性化干预之间的区别，从而提供了一种以前无法实现的更加独立的主体—语境控制。

论文链接：
https://arxiv.org/abs/2404.11565
项目地址：
https://snap-research.github.io/mixture-of-attention/

4.Stability AI推出长音乐生成模型，时常可达4分45秒

基于音频的音乐生成模型近来取得了重要进展，但迄今为止还无法生成具有连贯音乐结构的完整音乐曲目。

在这项工作中，Stability AI 表示，通过对长时空背景的生成模型进行训练，可以生成长达 4 分 45 秒的长篇音乐。据介绍，该模型由一个在高度降采样的连续潜在表征上运行的 diffusion-transformer 组成。根据音频质量和提示对齐度量标准，它在生成结果方面获得了 SOTA，主观测试表明，它能生成具有连贯结构的长篇音乐。

论文链接：
https://arxiv.org/abs/2404.10301
项目地址：
https://stability-ai.github.io/stable-audio-2-demo/

5.综述：用于推理、规划和工具调用的AI智能体架构

在这项工作中，来自 IBM、微软的研究团队探讨了 AI 智能体实现方面的最新进展，重点关注它们实现复杂目标的能力，这些目标需要更强的推理、规划和工具执行能力。

这项工作的主要目标是：1）交流现有 AI 智能体实现的当前能力和局限性；2）分享他们从观察这些系统的运行中获得的见解；3）为 AI 智能体设计的未来发展提出重要的考虑因素。

为此，他们概述了单智能体和多智能体架构，确定了设计选择中的关键模式和分歧，并评估了它们对实现既定目标的总体影响。

论文链接：
https://arxiv.org/abs/2404.11584

6.AgentKit：使用图而非编码进行流程工程设计

来自卡内基梅隆大学和英伟达的研究团队为多功能智能体（agent）提出了一个直观的 LLM 提示框架——AgentKit，用于从简单的自然语言提示中明确构建复杂的“思维过程”。

AgentKit 的基本构件是一个节点，其中包含针对特定子任务的自然语言提示。然后，用户将节点链组合在一起，就像堆砌乐高积木一样。节点链的设计可以明确执行自然结构的“思维过程”。例如，对于撰写论文的任务，可以从以下思维过程开始：1）确定核心信息；2）确定先前的研究差距等。AgentKit 中的节点可以通过不同的设计和组合方式来实现多种高级功能，包括即时分层规划、反思和从交互中学习。

此外，由于其模块化性质和模拟人类思维过程的直观设计，一个基本的智能体可以通过简单的子任务提示列表来实现，因此没有任何编程经验的人也可以设计和调整智能体。

从定量分析上看，通过 AgentKit 设计的智能体在 WebShop 和 Crafter 上实现了 SOTA。这凸显了 AgentKit 在使 LLM 智能体有效并适用于更广泛应用方面的潜力。

论文链接：
https://arxiv.org/abs/2404.11483
GitHub 地址：
https://github.com/holmeswww/AgentKit