大模型日报|13 篇必读的大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.第一个人工智能科学家:15 美元成本写论文,水平达到机器学习顶会

通用人工智能(AGI)的巨大挑战之一是开发能够进行科学研究和发现新知识的智能体(agent)。虽然前沿模型已被用作人类科学家的辅助工具,如头脑风暴、编写代码或预测任务,但它们仍然只能完成科学过程的一小部分。

在这项工作中,来自 Sakana AI、英属哥伦比亚大学的研究团队提出了首个用于全自动科学发现的综合框架,使前沿大语言模型(LLM)能够独立开展研究并交流研究成果。他们提出的“人工智能科学家”(The AI Scientist)可以生成新颖的研究想法、编写代码、执行实验、可视化结果、通过撰写完整的科学论文来描述其研究结果,然后运行模拟审查流程进行评估。原则上,这个过程可以重复进行,以开放式的方式迭代开发想法。他们将其应用于机器学习的三个不同子领域:扩散建模、基于 transformer 的语言建模和学习动力学,从而展示它的多功能性。每个想法都能实现并发展成为一篇完整的论文,每篇论文的成本不到 15 美元。

为了评估所生成的论文,他们设计并验证了一个自动评审员,结果表明该评审员在评估论文分数方面的表现接近人类。经自动审稿人评判,“人工智能科学家”可以生成超过顶级机器学习会议接受门槛的论文。

论文链接:
https://arxiv.org/abs/2408.06292
GitHub 地址:
https://github.com/SakanaAI/AI-Scientist

2.贾佳亚团队提出高效可控图像视频生成方法

扩散模型在图像和视频生成方面都表现出卓越而强大的能力。为了对生成结果实现更强的控制,研究人员提出了 ControlNet、Adapters 和 ReferenceNet 等多个架构,从而集成调节控制。然而,目前的可控生成方法往往需要大量额外的计算资源,尤其是在视频生成方面,而且在训练方面面临挑战,或者控制能力较弱。

在这项工作中,贾佳亚团队提出了一种强大且高效的可控图像、视频生成方法——ControlNeXt。他们首先设计了一个更简单、更高效的架构,与基础模型相比,以最小的额外成本取代了复杂的分支模块。这种简洁的结构还允许该方法与其他 LoRA 权重无缝集成,无需额外训练即可改变风格。在训练方面,与其他方法相比,他们减少了多达 90% 的可学习参数。此外,他们还提出了另一种名为“交叉归一化(Cross Normalization)”的方法来替代“Zero-Convolution”,从而实现快速、稳定的训练收敛。他们在图像和视频中使用不同的基础模型进行了各种实验,证明了该方法的鲁棒性。

论文链接:
https://arxiv.org/abs/2408.06070
项目地址:
https://pbihao.github.io/projects/controlnext/index.html

3.UC 伯克利推出 Body Transformer 架构

近年来,在自然语言处理和计算机视觉领域,transformer 架构已成为机器学习算法的实际标准。

尽管有显著的证据表明这种架构在机器人学习中得到了成功应用,但 UC 伯克利大学 Pieter Abbeel 团队认为,标准的 transformer 并未充分利用机器人学习问题的结构。因此,他们提出了 Body Transformer(BoT),这是一种通过提供引导学习过程的归纳偏差来利用机器人身体的架构。他们将机器人身体表示为传感器和致动器的图,并依靠掩码注意力在整个架构中汇集信息。在表示模仿或强化学习策略时,由此产生的架构在任务完成度、缩放特性和计算效率方面都优于标准的 transformer 和经典的多层感知器。

论文链接:
https://arxiv.org/abs/2408.06316
项目地址:
https://sferrazza.cc/bot_site/

4.VisualAgentBench:视觉基础智能体训练、评估新基准

大型多模态模型(LMMs)开创了人工智能的新纪元,它将语言和视觉的能力融合在一起,形成了能力极强的视觉基础智能体(Visual Foundation Agents)。据推测,这些智能体可以胜任各种任务,有可能接近通用人工智能(AGI)。然而,现有的基准未能充分挑战或展示 LMM 在复杂真实环境中的全部潜力。

为了填补这一空白,来自清华大学、俄亥俄州大大学、浙江大学和北京大学的研究团队推出了 VisualAgentBench(VAB),这是一个全面的、开创性的基准,专门用于在具身、图形用户界面和视觉设计等不同场景中训练和评估作为视觉基础智能体的 LMM。

通过对九种专有 LMM API 和八种开放模型的严格测试,他们展示了这些模型相当可观但仍在发展中的智能体能力。此外,VAB 还通过 Program-based Solvers、LMM Agent Bootstrapping 和 Human Demonstrations等混合方法构建了一个轨迹训练集,通过行为克隆促进 LMM 性能的大幅提升。该工作不仅旨在对现有模型进行基准测试,还为今后开发视觉基础智能体奠定了坚实的基础。

论文链接:
https://arxiv.org/abs/2408.06327
GitHub 地址:
https://github.com/THUDM/VisualAgentBench

5.微软、哈佛推出自博弈互推理方法 rStar

在这项工作中,来自微软亚洲研究院和哈佛大学的研究团队提出了一种自博弈互推理方法——rStar,其能够显著提高小语言模型(SLM)的推理能力,而无需微调或高级模型。

首先,一个目标小语言模型通过丰富的类人推理动作集来增强蒙特卡洛树搜索(MCTS),从而构建出更高质量的推理轨迹。接下来,另一个与目标 SLM 功能相似的 SLM 作为鉴别器,对目标 SLM 生成的每个轨迹进行验证。相互同意的推理轨迹被认为是相互一致的,因此更有可能是正确的。

五种 SLM 的广泛实验表明,rStar 可以有效解决各种推理问题,包括 GSM8K、GSM-Hard、MATH、SVAMP 和 StrategyQA。值得注意的是,rStar 将 LLaMA2-7B 的 GSM8K 准确率从 12.51% 提高到 63.91%,将 Mistral-7B 的准确率从 36.46% 提高到 81.88%,将 LLaMA3-8B-Instruct 的准确率从 74.53% 提高到 91.13%。

论文标题:
https://arxiv.org/abs/2408.04682

6.苹果推出 LLM 工具使用能力评估基准 ToolSandbox

近期大语言模型(LLMs)的进步激发了人们对工具辅助 LLMs 解决现实世界挑战的研究兴趣,这就要求对工具使用能力进行全面评估。以前的工作主要集中在通过无状态网络服务(RESTful API)、基于单轮用户提示或离策略对话轨迹进行评估,而 ToolSandbox 包括有状态工具执行、工具之间的隐式状态依赖关系、支持政策对话评估的内置用户模拟器,以及针对任意轨迹的中间和最终里程碑的动态评估策略。

研究表明,开源模型和专有模型在性能上存在明显差距,ToolSandbox 中定义的状态依赖性(State Dependency)、规范化(Canonicalization)和信息不足(Insufficient Information)等复杂任务甚至对能力最强的 SOTA LLM 也构成了挑战。

论文链接:
https://arxiv.org/abs/2408.04682

7.DeepMind 推出首个达到人类业余水平的乒乓球机器人

在现实世界的任务中实现人类水平的速度和性能,是机器人研究界的主要目标之一。这项工作向这一目标迈出了一大步,并展示了首个在竞技乒乓球比赛中达到业余人类水平的学习型机器人智能体(agent)。

乒乓球是一项对体力要求极高的运动,人类运动员需要经过多年的训练才能达到高级水平。在这项工作中,Google DeepMind 团队的贡献为:(1)一个分层和模块化的策略架构,其中包括:(i)带有详细技能描述符的低级控制器,用于模拟机器人的能力,并有助于弥合模拟与现实之间的差距;(ii)一个高级控制器,用于选择低级技能;(2)实现零样本模拟与现实之间差距的技术,包括一种迭代方法,用于定义任务分配,该方法以现实世界为基础,并定义了自动课程;(3)实时适应未知对手。

通过 29 场机器人与人类的比赛对策略性能进行了评估,其中机器人赢得了 45% 的比赛(13/29)。所有人类都是未见过的选手,他们的技术水平从初学者到锦标赛级别不等。虽然机器人在与最高级选手的比赛中全部落败,但在与初学者的比赛中却取得了 100% 的胜利,在与中级选手的比赛中取得了 55% 的胜利,表现出了人类业余选手的水平。

论文链接:
https://arxiv.org/abs/2408.03906
项目地址:
https://sites.google.com/view/competitive-robot-table-tennis

8.苹果新研究:利用有限内存进行高效大模型推理

尽管大语言模型(LLM)在各种任务中展现出了卓越的性能,但它们对计算和内存的大量需求带来了挑战,尤其是对 DRAM 容量有限的设备而言。

在这项工作中,苹果团队通过将模型参数存储在闪存中,并根据需要将其导入 DRAM,解决了高效运行超过 DRAM 可用容量的 LLM 的难题。他们的方法包括构建一个考虑到闪存特性的推理成本模型,在两个关键领域进行优化:减少从闪存传输的数据量,以及以更大更连续的块读取数据。在这个基于硬件的框架内,他们引入了两项主要技术。首先,windowing 技术通过重复使用先前激活的神经元,减少了数据传输;其次,row-column bundling 技术针对闪存的顺序数据访问优势,增加了从闪存读取数据块的大小。

与 CPU 和 GPU 中的本地加载方法相比,这些方法共同使运行模型的大小达到可用 DRAM 的两倍,推理速度分别提高了 4-5 倍和 20-25 倍。

论文链接:
https://arxiv.org/abs/2312.11514

9.DeepMind:优化测试时计算扩展,改进大模型输出结果

让大语言模型(LLM)通过使用更多的测试时计算(test-time computation)来改进其输出结果,是朝着构建能够在开放式自然语言上运行的通用自改进智能体迈出的关键一步。

来自 UC 伯克利和 Google DeepMind 的团队,研究了 LLM 中推理时计算(inference-time computation)的扩展,重点回答以下问题:如果允许 LLM 使用固定且足够大的推理时计算,那么它能在多大程度上提高其在具有挑战性的提示符上的性能?回答这个问题不仅关系到 LLM 的可实现性能,还关系到 LLM 预训练的未来,以及应该如何权衡推理时间和预训练计算。尽管这个问题很重要,但很少有研究试图了解各种测试时推理方法的扩展行为。此外,目前的研究在很大程度上为其中一些策略提供了负面结果。

在这项工作中,他们分析了扩展测试时计算的两种主要机制:(1)根据密集的、基于过程的验证器奖励模型进行搜索;(2)根据测试时的提示,自适应地更新模型在响应上的分布。他们发现,在这两种情况下,不同的测试时计算扩展方法的有效性关键取决于提示的难度。这一观察结果促使他们采用“计算最优”扩展策略,该策略的作用是最有效地为每个提示自适应分配测试时计算。使用这种计算最优策略,他们可以将测试时计算扩展的效率提高到 best-of-N 基线的 4 倍以上。此外,在与 FLOPs 匹配的评估中,他们发现,在较小的基础模型也能达到一定成功率的问题上,测试时计算的性能可以超过 14 倍的较大模型。

论文链接:
https://arxiv.org/abs/2408.03314

10.哈工大团队推出多模态智能体 Optimus-1

建立通才智能体(agent)是人工智能(AI)领域的一个长期愿景。现有的智能体在许多领域都取得了显著的进步,但它们仍然难以在开放世界中完成长期任务。来自哈尔滨工业大学、鹏程实验室的研究团队将其归咎于缺乏必要的世界知识和多模态经验,而这些知识和经验可以指导智能体完成各种长期任务。

在这项工作中,他们提出了一种混合多模态记忆(Hybrid Multimodal Memory)模块来应对上述挑战。该模块 1)将知识转化为分层有向知识图谱(Hierarchical Directed Knowledge Graph),允许智能体明确地表示和学习世界知识;2)将历史信息总结为抽象多模态经验池(Abstracted Multimodal Experience Pool),为智能体提供丰富的上下文学习参考。在混合多模态记忆模块的基础上,他们构建了一个多模态智能体 Optimus-1,它具有专用的知识引导规划器和经验驱动反思器,有助于在 Minecraft 中面对长期任务时更好地进行规划和反思。

广泛的实验结果表明,Optimus-1 在具有挑战性的长期任务基准测试中的表现明显优于所有现有智能体,并在许多任务中表现出接近人类水平的性能。此外,他们还为 Optimus-1 引入了各种多模态大语言模型(MLLM)。实验结果表明,在混合多模态记忆模块的帮助下,Optimus-1 表现出了很强的泛化能力,在许多任务上都优于 GPT-4V 基线。

论文链接:
https://arxiv.org/abs/2408.03615

11.MiniCPM-V:手机上的 GPT-4V 级 MLLM

最近,多模态大语言模型(MLLMs)的兴起从根本上重塑了人工智能(AI)研究和产业的格局。然而,MLLM 在实际应用中仍面临巨大挑战。最显著的挑战来自于运行具有大量参数和广泛计算的 MLLM 所需的巨额成本。因此,大多数 MLLM 需要部署在高性能的云服务器上,这大大限制了它们的应用范围,如移动端、离线、隐私保护等场景。

在这项工作中,来自开源社区 OpenBMB 的研究团队提出了一系列可部署在终端设备上的高效 MLLM——MiniCPM-V。最新的 MiniCPM-Llama3-V 2.5 在架构、预训练和对齐方面集成了最新的 MLLM 技术,具有以下几个显著特点:1)性能强劲,在 OpenCompass 上的表现优于 GPT-4V-1106、Gemini Pro 和 Claude 3;2)具有强大的 OCR 能力和 180 万像素高分辨率图像感知能力,可感知任何长宽比的图像;3)行为可信,幻觉率低;4)支持 30 多种语言;5)可在手机上高效部署。

研究表明,在终端设备上部署 GPT-4V 级别的 MLLM 越来越有可能,从而在不久的将来开启更广泛的真实世界 AI 应用。
论文链接:
https://arxiv.org/abs/2408.01800
GitHub 地址:
https://github.com/OpenBMB/MiniCPM-V

12.Meta FAIR 推出“自教学评估器”,无需人工标注,优于 GPT-4

基于模型的评估是成功模型开发的核心——既可作为训练的奖励模型,也可替代人工评估。为了训练这种评价器,标准方法是收集大量人类对模型响应的偏好判断,这种方法成本高昂,而且随着模型的改进,数据会变得陈旧。

在这项工作中,来自 Meta FAIR 的研究团队提出了一种方法,旨在仅使用合成训练数据,在没有人工标注的情况下改进评估器。从未标注的指令开始,他们的迭代自我改进方案生成对比模型输出,并训练一个 LLM-as-a-Judge,以生成推理轨迹和最终判断,在每次新的迭代中使用改进后的预测重复这一训练。在没有任何标注偏好数据的情况下,自教学评估器(Self-Taught Evaluator)可以将一个强 LLM(Llama3-70B-Instruct)在 RewardBench 上的得分从 75.4 提高到 88.3(多数票为 88.7)。这优于 GPT-4 等常用的 LLM 评估器,并与使用标注示例训练的奖励模型的性能不相上下。

论文链接:
https://arxiv.org/abs/2408.02666

13.上海 AI Lab 推出多模态自回归模型系列 Lumina-mGPT

在这项工作中,来自上海 AI Lab 的研究团队提出了一个多模态自回归模型系列——Lumina-mGPT,其能够完成各种视觉和语言任务,尤其擅长根据文本描述生成灵活的逼真图像。与现有的自回归图像生成方法不同,Lumina-mGPT 采用预训练的 decoder-only transformer 作为多模态 token 序列建模的统一框架。

团队认为,简单的 decoder-only transformer 与多模态生成预训练(mGPT)相结合,利用对海量交错文本-图像序列的下一个 token 预测目标,可以学习广泛而通用的多模态能力,从而生成逼真的文本-图像。在这些预训练模型的基础上,团队提出了对高质量图像-文本对进行灵活渐进式监督微调(FP-SFT)的建议,以充分释放这些模型在任何分辨率下合成高美感图像的潜力,同时保持其通用的多模态能力。

他们还提出了 Ominiponent Supervised Finetuning(Omni-SFT),将 Lumina-mGPT 转化为可无缝实现全能任务统一的基础模型。由此产生的模型展示了多功能多模态能力,包括灵活的文本到图像生成和可控生成等视觉生成任务、分割和深度估计等视觉识别任务以及多轮视觉问题解答等视觉语言任务。此外,他们还通过直接比较分析了基于扩散的方法和自回归方法之间的异同。

论文链接:
https://arxiv.org/abs/2408.02657
GitHub 地址:
https://github.com/Alpha-VLLM/Lumina-mGPT

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值