大模型日报｜今日必读的 7 篇大模型论文

最新推荐文章于 2024-08-06 14:33:25 发布

学术头条

最新推荐文章于 2024-08-06 14:33:25 发布

阅读量814

点赞数 24

分类专栏：每日大模型论文文章标签：人工智能语言模型

本文链接：https://blog.csdn.net/AMiner2006/article/details/139009394

版权

每日大模型论文专栏收录该内容

81 篇文章 88 订阅

订阅专栏

在这里插入图片描述

大家好，今日必读的大模型论文来啦！

1.斯坦福大学新研究：多模态基础模型中的多样本上下文学习

目前，大型语言模型在少样本上下文学习（ICL）方面非常有效，多模态基础模型实现了超长上下文窗口，这为探索这些模型利用更多演示示例执行 ICL 提供了机会。

为此，来自斯坦福大学的研究团队评估了多模态基础模型的性能，包括从少样本到多样本的 ICL。他们在横跨多个领域（自然图像、医学图像、遥感和分子图像）和任务（多类、多标签和细粒度分类）的 10 个数据集上对 GPT-4o 和 Gemini 1.5 Pro 进行了基准测试并发现，在所有数据集上，多样本 ICL（包括多达近 2000 个多模态演示示例）比少样本 ICL（小于 100 个示例）有大幅改进。此外，在许多数据集上，Gemini 1.5 Pro 的性能继续以对数线性方式提高直至测试实例的最大数量。

考虑到多样本 ICL 所需的长时间提示所带来的高推理成本，他们还探索了在单次 API 调用中批处理多个查询的影响。研究表明，在零样本和多样本 ICL 条件下，多达 50 次的批量查询可带来性能提升，在多个数据集上的零样本设置中，性能提升显著的同时大幅降低了每次查询的成本和延迟。

最后，他们测量了模型的 ICL 数据效率，即模型从更多示范示例中学习的速度。他们发现，虽然 GPT-4o 和 Gemini 1.5 Pro 在数据集上实现了相似的零样本性能，但在大多数数据集上，Gemini 1.5 Pro 的 ICL 数据效率都高于 GPT-4o。研究表明，多样本 ICL 可以让用户高效地调整多模态基础模型，从而适应新的应用和领域。

论文链接：
https://arxiv.org/abs/2405.09798
GitHub地址：
https://github.com/stanfordmlgroup/ManyICL

2.Meta 推出 Chameleon：早期融合 token 的混合模态模型

来自 Meta 的研究团队提出了一系列基于早期融合 token 的混合模态模型—— Chameleon，能够理解和生成任意序列的图像和文本。他们概述了一种稳定的训练方法、配准秘诀，以及专为早期融合、基于 token 的混合模态设置而定制的架构参数化。他们在一系列任务中对模型进行了评估，包括视觉问题解答、图像字幕、文本生成、图像生成和长格式混合模态生成。

Chameleon 在图像字幕任务中的表现出色，在纯文本任务中的表现优于 Llama-2，同时可以与 Mixtral 8x7B 和 Gemini-Pro 等模型竞争，并能进行非繁琐的图像生成，所有这些都在一个模型中完成。在新的长式混合模式生成评估中，提示或输出都包含图像和文本的混合序列，根据人类的判断，Chameleon 的性能也达到或超过了更大型的模型，包括 Gemini Pro 和 GPT-4V。

论文链接：
https://arxiv.org/abs/2405.09818

3.谷歌新研究：利用多视图扩散模型创建任何 3D 内容

目前，3D 重建技术的进步实现了高质量的 3D 捕捉，但用户需要收集成百上千张图像才能创建 3D 场景。

来自谷歌研究团队提出了一种通过多视角扩散模型模拟现实世界中的捕捉过程来创建 3D 场景的方法—— CAT3D。给定任意数量的输入图像和一组目标新视角，他们的模型就能生成高度一致的场景新视角。这些生成的视图可作为鲁棒性 3D 重构技术的输入，生成可从任何视角实时渲染的 3D 呈现。CAT3D 可在一分钟内创建整个 3D 场景，其性能优于现有的单幅图像和少视角 3D 场景创建方法。

论文链接：
https://arxiv.org/abs/2405.10314
GitHub地址：
https://cat3d.github.io/

4.UC 伯克利新研究：利用强化学习微调大型视觉语言模型

目前，根据专门的视觉指令数据微调的大型视觉语言模型（VLM）在各种场景中都表现出了令人印象深刻的语言推理能力。然而，这种微调范式可能无法从交互环境中有效学习多步骤目标导向任务中的最优决策智能体。

为此，来自加州大学伯克利分校、伊利诺伊大学厄巴纳-香槟分校和纽约大学的研究团队提出了一种利用强化学习（RL）对 VLM 进行微调的算法框架。具体来说，他们的框架提供任务描述，然后提示 VLM 生成思维链（CoT）推理，使 VLM 能够有效地探索导致最终文本行动的中间推理步骤。接下来，开放式文本输出会被解析为可执行的动作，从而与环境互动，获得目标导向的任务奖励。最后，他们的框架利用这些任务奖励，通过 RL 对整个 VLM 进行微调。

他们提出的框架增强了智能体在各种任务中的决策能力，使 7b 模型的表现优于 GPT4-V 或 Gemini 等商业模型。此外，他们还发现 CoT 推理是提高性能的关键因素，因为去除 CoT 推理会导致他们方法的整体性能显著下降。

论文链接：
https://arxiv.org/abs/2405.10292

5.人类-AI 安全：生成式人工智能和控制系统安全

生成式人工智能（AI）正在以前所未有的规模与人类互动，这为产生巨大的积极影响提供了新的途径，但同时也引发了人们对个人和社会潜在危害的广泛关注。

目前，人类-AI 安全的主要模式侧重于微调生成模型的输出，使其更好地符合人类提供的示例或反馈。然而，在现实中，AI 模型的输出结果无法在孤立的环境中确定，它们与人类用户的反应和行为长期紧密纠缠在一起。

来自卡内基梅隆大学和普林斯顿大学的研究团队认为，只有通过推理人工智能的输出和人类行为形成的反馈回路会如何推动交互走向不同的结果，才能为这些人工智能技术提供有意义的安全保证。为此，他们设想了一个高价值的机会之窗，将快速增长的生成式 AI 能力与控制理论中的动态安全框架联系起来，为未来几十年以人为本的人工智能安全奠定新的基础。

论文链接：
https://arxiv.org/abs/2405.09794

6.MIT 推出 STAR Benchmark：真实世界视频中的情景推理

现实世界中的推理离不开情景，如何从周围情景中捕捉现有知识并进行相应的推理，对于人工智能来说至关重要，也极具挑战性。

来自麻省理工大学和上海交通大学的研究团队提出了一个新的基准，即 “真实世界视频中的情景推理（STAR Benchmark）”，该基准通过对真实世界视频的情景抽象和基于逻辑的问题解答来评估情景推理能力。

该基准基于现实世界中与人类行为或互动相关的视频，这些视频具有天然的动态性、构成性和逻辑性。数据集包括四种类型的问题，包括交互、顺序、预测和可行性。他们通过连接提取的原子实体和关系（如动作、人、物和关系）的超图来表示真实世界视频中的情境。除了视觉感知，情景推理还需要结构化的情景理解和逻辑推理，问题和答案是按程序生成的，每个问题的回答逻辑都由基于情境超图的功能程序来表示。

他们对现有的各种视频推理模型进行了比较，发现它们都难以完成这项具有挑战性的情景推理任务。他们进一步提出了一种诊断性神经符号模型，该模型可以将视觉感知、情境抽象、语言理解和功能性推理区分开来。

论文链接：
https://arxiv.org/abs/2405.09711
项目地址：
https://bobbywu.com/STAR/

7.PSG-4D：4D 全景图生成新方法

人类生活在 3D 空间中，同时又在第四维度（时间）中前行。

为了让人工智能对这样的四维环境有一个全面的了解，来自南洋理工大学、香港科技大学和北京邮电大学的研究团队及其合作者提出了一种 4D 全景图新的表示方法—— PSG-4D，它将动态四维世界中感知到的原始视觉数据与高级视觉理解连接起来。具体来说，PSG-4D 将丰富的 4D 感知数据抽象为节点（代表具有精确位置和状态信息的实体）和边（捕捉时间关系）。

为了促进这一新领域的研究，他们建立了一个注释丰富的 PSG-4D 数据集，该数据集由总计 100 万帧的 3K RGB-D 视频组成，每帧视频都标有 4D 全景分割掩码以及细粒度动态场景图。为了解决 PSG-4D 问题，他们提出了一种基于 transformer 的模型 PSG4DFormer，可以预测全景分割掩码，沿时间轴跟踪掩码，并通过关系组件生成相应的场景图。

在新数据集上进行的大量实验表明，他们的方法可以作为未来 PSG-4D 研究的有力基线。最后，他们提供了一个真实世界的应用实例，展示了如何通过将大型语言模型集成到 PSG-4D 系统中来实现动态场景理解。

论文链接：
https://arxiv.org/abs/2405.10305
GitHub地址：
https://github.com/Jingkang50/PSG4D