大模型日报｜今日必读的8篇大模型论文

AI大模型头条

已于 2024-03-27 18:12:45 修改

阅读量976

点赞数 16

分类专栏：每日大模型论文文章标签：人工智能机器学习语言模型深度学习 chatgpt

于 2024-03-27 17:47:42 首次发布

本文链接：https://blog.csdn.net/AMiner2006/article/details/137084131

版权

每日大模型论文专栏收录该内容

175 篇文章

订阅专栏

在这里插入图片描述

大家好，今日必读的大模型论文来啦！

1.智能体工具包AgentStudio：在任何数字设备上使用任意软件

创建能够在任何数字设备上使用任意软件的自主虚拟智能体是人工智能面临的一大挑战。有两个关键障碍阻碍了进展：一是在真实环境中构建虚拟智能体的基础设施不足，二是需要对智能体的基本能力进行实地评估。

为了解决这些问题，南洋理工大学和 Skywork AI 推出了 AgentStudio，这是一个在线、逼真和多模态的工具包，涵盖了智能体开发的整个生命周期，其中包括环境设置、数据收集、智能体评估和可视化等功能，同时使观察和行动空间具有高度通用性，并且支持函数调用和人机界面。

AgentStudio 还在图形用户界面进一步增强了通用性，允许在真实世界环境中高效开发数据集和基准。研究团队介绍了一个可视化基础数据集和一个真实世界基准套件，两者都是用该模型的图形界面创建的。

此外，该团队还介绍了从 Agent Studio 中获得的一些可操作功能的见解，比如通用的可视化接地、开放式工具创建、从视频中学习等。为促进未来开发通用虚拟体的研究，该团队已将环境、数据集、基准和界面开源。

论文链接
https://arxiv.org/abs/2403.17918
项目地址
https://skyworkai.github.io/agent-studio/

2.TinySaver：利用小模型自适应替代大模型

都柏林大学学院与法国 Junia 公司介绍了一种类似早期退出的动态模型压缩方法 TinySaver ，它利用小模型自适应地替代大模型。与传统的压缩技术不同，TinySaver 等动态方法可以利用难度差异，让某些输入提前完成推理过程，从而节省计算资源。

现有的早期退出设计大多是通过在模型主干上附加额外的网络分支来实现的。然而，该研究团队发现，完全独立的小模型可以取代大模型的大部分工作，而对性能的影响却微乎其微，将它们作为第一出口可以显著提高计算效率。

通过搜索和使用最合适的微小模型作为给定大型模型的计算节省器，所提出的方法是一种新颖而通用的模型压缩方法。这一发现将有助于研究界探索新的压缩方法，以应对快速发展的人工智能模型带来的不断升级的计算需求。

该团队还在 ImageNet-1k 分类中对 TinySaver 进行了评估，结果表明，在各种现代视觉模型中，这种方法有可能将计算操作的数量减少多达 90%，而性能损失几乎可以忽略不计。

论文来源：
https://arxiv.org/abs/2403.17726

3.谷歌、Stability AI新研究：由文本引导生成纹理3D服装

谷歌、Stability AI 及其合作者提出了 WordRobe ，这是一个新颖的框架，解决的是一个具有挑战性的新问题，即由文本驱动生成具有高质量纹理的3D服装，用于根据用户友好的文本提示生成未摆放的纹理3D服装网格。

为此，该团队首先使用一种新颖的从粗到细的训练策略学习3D服装的潜在表示法，并利用潜在解缠损失促进更好的潜在插值。随后，以弱监督方式将服装潜空间与 CLIP 嵌入空间对齐，从而实现文本驱动的 3D 服装生成和编辑。在外观建模方面，WordRobe 还利用 ControlNet 的零样本生成功能，在单个前馈推理步骤中合成与视图一致的纹理贴图，从而大大缩短了生成时间。

通过定量评估和定性用户研究，WordRobe 展示了在学习 3D 服装潜空间、服装插值和文本驱动纹理合成方面优于现有 SOTAs 的性能。使用 WordRobe 生成的未摆放的 3D 服装网格可直接输入标准的布料仿真和动画管道，无需任何后处理。

论文链接：
https://arxiv.org/abs/2403.17541
项目地址
https://wordrobe24.github.io/WordRobe_Page/

4.Meta提出DiffH2O ：基于文本描述的手-物交互合成

在 3D 中生成自然的手与物体的互动具有挑战性，因为所生成的手与物体的动作需要在物理上合理，在语义上有意义。此外，由于现有的手与物体交互数据集规模有限，因此无法将其推广到未见过的物体上。

为此，Meta 提出了一种新的方法 DiffH2O ，可根据提供的文本提示和物体的几何形状合成逼真的单手或双手物体交互。

该方法引入了三种技术，可以从有限的数据中进行有效学习。首先，DiffH2O 将任务分解为抓取阶段和基于文本的交互阶段，并分别使用不同的扩散模型。在抓取阶段，模型只生成手部动作，而在交互阶段，手部和物体的姿势都会被合成。其次，DiffH2O 提出了一种紧密结合手部和物体姿势的紧凑表示法。

最后，DiffH2O 提出了两种不同的引导方案，以便对生成的动作进行更多控制——抓握引导和详细的文字引导。抓取引导采用单一目标抓取姿势，并引导扩散模型在抓取阶段结束时达到该抓取姿势，从而提供对抓取姿势的控制。给定这一阶段的抓取动作，可在交互阶段提示多个不同的动作。在文字指导方面，DiffH2O 也为 GRAB 数据集提供了全面的文字描述，并证明这些文字描述使该能够对手与物体的交互进行更精细的控制。

经过定量和定性评估结果表明，DiffH2O 所提出的方法优于基线方法，并能实现自然的手部物体运动。此外，该研究团队还利用现成姿势估计器的手部姿势估计值作为指导，然后在交互阶段对多个不同动作进行采样，从而证明了该方法框架的实用性。

论文链接：
https://arxiv.org/abs/2403.17827
项目来源
https://diffh2o.github.io/

5.首个基于大模型的自主程序修复智能体RepairAgent

由斯图加特大学和加州大学戴维斯分校的研究团队提出的 RepairAgent ，是首个通过基于大型语言模型（LLM）的自主智能体来应对程序修复挑战的工作。

目前，基于深度学习的方法以固定的提示或在固定的反馈循环中提示模型，与之不同的是，该研究团队将 LLM 视为一个能够自主规划和执行行动的智能体，通过调用合适的工具来修复错误。

RepairAgent 可自由穿插收集错误信息、收集修复成分和验证修复，同时根据收集到的信息和先前修复尝试的反馈来决定调用哪些工具。实现 RepairAgent 的关键贡献包括：一组对程序修复有用的工具、一种允许 LLM 与这些工具交互的动态更新提示格式，以及一种指导代理调用工具的有限状态机。

在流行的 Defects4J 数据集上进行的评估表明，RepairAgent 能有效地自主修复 164 个错误，其中包括 39 个以前的技术无法修复的错误。与 LLM 交互的平均成本为每个漏洞 270000 token，按照 OpenAI 的 GPT-3.5 模型的当前定价，相当于每个漏洞 14 美分。

这项工作首次提出了一种基于 LLM 的自主程序修复智能体，促进了未来软件工程中基于智能体的技术发展。

论文链接：
https://arxiv.org/abs/2403.17134

6.TC4D：以轨迹为条件的文本到 4D 生成

近来，文本到 3D 生成技术利用预先训练好的文本到视频模型的监督合成动态 3D 场景。

然而，现有的运动表示法（如随时间变化的神经表示法）生成的运动量有限，无法合成远远超出用于体积渲染的边界框的运动。由于缺乏更灵活的运动模型，导致 4D 生成方法与最新的近乎逼真的视频生成模型在逼真度上存在差距。

为此，多伦多大学、香港城市大学等多所大学联合Vector研究所和Snap公司提出了 TC4D：以轨迹为条件的文本到 4D 生成，它将运动分为全局和局部两个部分。该团队使用沿由样条曲线参数化的轨迹进行的刚性 transformer 来表示场景边界框的全局运动。TC4D 通过文本到视频模型的监督来学习符合全局轨迹的局部变形，这种方法能够合成沿任意轨迹运动的场景，生成合成场景，并显著改善生成运动的真实感和运动量。

论文链接：
https://arxiv.org/abs/2403.17920
项目地址：
https://sherwinbahmani.github.io/tc4d/

7.Meta新研究：通过自动提示优化提高文本到图像的一致性

文本到图像（T2I）生成模型能够生成美观、逼真的图像。但这些模型仍难以生成与输入提示一致的图像，有时甚至无法正确捕捉对象的数量、关系和属性。

现有的提高提示-图像一致性的解决方案面临以下挑战：(1) 通常需要对模型进行微调；(2) 只关注附近的提示样本；(3) 受图像质量、表示多样性和提示与图像一致性之间不利权衡的影响。

Meta团队及其合作者提出了一个通过提示进行 T2I 优化的框架 OPT2I，该框架利用大语言模型（LLM）来提高 T2I 模型中提示-图像的一致性。该框架从用户提示开始，以一致性得分最大化为目标迭代生成修改后的提示。研究团队在 MSCOCO 和 PartiPrompts 这两个数据集上进行的广泛验证表明，OPT2I 在保留 FID 并提高生成数据与真实数据之间的召回率的同时，可将初始一致性得分提高 24.9%（DSG 分数）。

论文链接：
https://arxiv.org/abs/2403.17804

8.牛津团队提出DreamPolisher：通过几何扩散实现高质量文本到 3D 的生成

虽然从文本到 3D 的生成方法最近取得了可喜的进展，但目前流行的方法往往无法确保视图一致性和纹理的丰富性。这个问题在仅使用文本输入的方法中尤为明显。

为了解决这个问题，牛津大学研究团队提出了一种基于高斯拼接法的两阶段方法DreamPolisher，以确保视图之间的几何一致性。首先，通过几何优化对粗3D生成进行细化。随后，使用 ControlNet 驱动的细化器和几何一致性项来提高纹理保真度和生成的3D资产的整体一致性。通过对跨越不同对象类别的各种文本提示进行实证评估，证明了 DreamPolisher 在生成一致、逼真的 3D 对象方面的功效，而且与文本指示的语义非常吻合。

论文链接：
https://arxiv.org/abs/2403.17237
项目地址
https://yuanze-lin.me/DreamPolisher_page/