大模型日报｜今日必读的7篇大模型论文

学术头条

已于 2024-03-15 15:44:08 修改

阅读量1.2k

点赞数 20

分类专栏：每日大模型论文文章标签：人工智能深度学习机器学习语言模型 chatgpt

于 2024-03-15 15:27:27 首次发布

本文链接：https://blog.csdn.net/AMiner2006/article/details/136740903

版权

每日大模型论文专栏收录该内容

73 篇文章 79 订阅

订阅专栏

在这里插入图片描述
大家好，今日必读的大模型论文来啦！

1.李飞飞团队发布具身人工智能基准，包含1000种日常活动和逼真模拟

论文标题：
BEHAVIOR-1K: A Human-Centered, Embodied AI Benchmark with 1,000 Everyday Activities and Realistic Simulation
论文链接：
https://arxiv.org/abs/2403.09227

主要内容：
来自斯坦福、得克萨斯大学奥斯汀分校等大学的研究团队推出了一项以人为本的机器人技术综合模拟基准——BEHAVIOR-1K。

BEHAVIOR-1K 包括两个部分，由 “您希望机器人为您做什么？”这一问题的广泛调查结果指导和推动。第一部分是对 1000 种日常活动的定义，以 50 个场景（房屋、花园、餐厅、办公室等）为基础，其中有 9000 多个标注了丰富物理和语义属性的物体。其次是 OMNIGIBSON，这是一个模拟环境，通过对刚体、可变形体和液体进行逼真的物理模拟和渲染来支持这些活动。

实验表明，BEHAVIOR-1K 中的活动是长视距的，并且依赖于复杂的操作技能，这两点对于最先进的机器人学习解决方案来说仍然是一个挑战。为了校准 BEHAVIOR-1K 的模拟与现实之间的差距，研究团队进行了一项初步研究，将在模拟公寓中使用移动机械手学习到的解决方案转移到现实世界中。

研究团队希望 BEHAVIOR-1K 以人为本的特性、多样性和现实性能使其在具身人工智能和机器人学习研究中发挥重要作用。

2.清华团队新研究：只需一张图，5分钟定制高保真一致3D内容

论文标题：
Make-Your-3D: Fast and Consistent Subject-Driven 3D Content Generation
论文链接：
https://arxiv.org/abs/2403.09625
项目地址
https://liuff19.github.io/Make-Your-3D/

主要内容：
近年来，3D 生成模型发挥了强大的威力，它允许用户通过单张图像或自然语言来指导 3D 内容生成过程，从而将创作灵活性提升到了一个新的水平。然而，对于现有的 3D 生成方法来说，在不同的提示下创建主题驱动的 3D 内容仍然是一项挑战。

清华团队提出了一种新型 3D 定制方法——Make-Your-3D ，该方法可在 5 分钟内，仅通过一张带有文字描述的主题图像，个性化地生成高保真且一致的 3D 内容。

该项研究的主要内容是协调多视角扩散模型和特定身份 2D 生成模型的分布，使它们与所需 3D 主体的分布对齐。具体来说，研究团队设计了一个协同进化框架来减少分布的方差，其中每个模型分别通过身份感知优化和主体先验优化来学习另一个模型。

实验证明，这一方法可以生成高质量、一致且针对特定主题的 3D 内容，这些内容由文本驱动修改，在主题图像中是看不到的。

3.苹果MM1大模型：30B参数，多模态，在预训练指标上达到SOTA

论文标题：
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
论文链接：
https://arxiv.org/abs/2403.09611

主要内容：
苹果团队在最新论文中讨论了构建高性能的多模态大语言模型（MLLMs）的问题，特别研究了各种架构组件和数据选择的重要性。通过对图像编码器、视觉语言连接器和各种预训练数据选择进行细致而全面地分析，研究团队发现了一些关键的设计经验。

例如，与其他已发布的预训练结果相比，在大规模多模态预训练中，精心混合使用图像字幕、交错图像文本和纯文本数据，对于在多个基准测试中取得 SOTA 少样本结果至关重要。此外，研究团队还展示了图像编码器、图像分辨率和图像 token 数都会产生重大影响，而视觉语言连接器设计的重要性则相对较小。

通过所提出的方法，研究团队建立了一个多模态模型系列 MM1，它由密集模型和专家混合（MoE）变体组成，参数多达 30B，在预训练指标上达到了 SOTA，并在一系列既定的多模态基准上经过监督微调后取得了具有竞争力的性能。得益于大规模的预训练，MM1 具有增强的上下文学习和多图像推理等吸引人的特性，从而能够进行少样本的思维链提示。

4.Meta新研究：通过因子扩散蒸馏进行视频编辑

论文标题：
Video Editing via Factorized Diffusion Distillation
论文链接：
https://arxiv.org/abs/2403.09334

主要内容：
Meta AI 团队提出了一个无需依赖任何监督视频编辑数据就能建立视频编辑新技术的模型——Emu Video Edit （EVE）。

为了开发 EVE，研究团队分别训练了图像编辑适配器和视频生成适配器，并将两者附加到同一个文生图模型上。然后，为了使适配器与视频编辑相匹配，他们提出了一种新的无监督蒸馏程序——Factorized Diffusion Distillation。该程序在没有任何监督数据的情况下，同时从一个或多个教师那里提炼知识。

研究团队利用这一程序来教 EVE 编辑视频，通过共同提炼知识来从图像编辑适配器中精确编辑每个单独的帧，并使用视频生成适配器确保已编辑帧之间的时间一致性。最后，为了展示其方法在释放其他功能方面的潜力，研究团队调整了适配器的其他组合。

5.3D 视觉-语言-动作生成世界模型

论文标题：
3D-VLA: A 3D Vision-Language-Action Generative World Model
论文链接：
https://arxiv.org/abs/2403.09631
项目地址
https://vis-www.cs.umass.edu/3dvla/

主要内容：
最近的视觉-语言-动作（VLA）模型依赖于 2D 输入，缺乏与更广阔的 3D 物理世界的整合。此外，这些模型通过学习从感知到行动的直接映射来进行行动预测，忽视了世界的巨大动态以及行动与动态之间的关系。相比之下，人类拥有世界模型，可以描绘对未来场景的想象，并据此规划行动。

为此，来自马萨诸塞大学阿默斯特分校、上海交通大学等大学的研究团队提出了3D-VLA，介绍了一系列新的具身基础模型，通过生成式世界模型将 3D 感知、推理和行动无缝连接起来。具体来说，3D-VLA 建立在基于 3D 的大型语言模型（LLM）之上，并使用了一组交互 tokens 来与具身环境互动。

此外，为了给模型注入生成能力，研究团队训练了一系列具身扩散模型，并将它们与 LLM 对齐，以预测目标图像和点云。为了训练 3D-VLA 模型，研究团队从现有的机器人数据集中提取了大量与 3D 相关的信息，策划了一个大规模的 3D 体感指令数据集。

在数据集上进行的实验证明，3D-VLA 显著提高了具身环境中的推理、多模态生成和规划能力，展示了其在现实世界应用中的潜力。

6.LM2D：歌词与音乐驱动的舞蹈合成

论文标题：
LM2D: Lyrics- and Music-Driven Dance Synthesis
论文链接：
https://arxiv.org/abs/2403.09407

主要内容：
舞蹈通常由专业人员根据音乐节奏编排复杂的动作，也可能受到歌词内容的影响。除了听觉维度之外，歌词的融入也丰富了基础音调，并使动作生成更符合其语义含义。然而，现有的舞蹈合成方法往往只以音频信号为条件建立动作模型。

为此，来自瑞典皇家理工学院、南洋理工大学、国立情报学研究所和哥本哈根大学的研究团队通过两项贡献来弥补这一差距。首先，他们提出了一个新的概率架构 LM2D，它将多模态扩散模型与一致性蒸馏相结合，旨在通过一个扩散生成步骤同时创建以音乐和歌词为条件的舞蹈。其次，研究团队提出了首个包含音乐和歌词的 3D 舞蹈动作数据集，该数据集通过姿势估计技术获得。

研究团队通过客观指标和人类评估（包括舞者和舞蹈编导）对其模型与纯音乐基线模型进行了评估。结果表明，LM2D 能够生成与歌词和音乐相匹配的逼真、多样的舞蹈。

7.Glyph-ByT5：用于精确视觉文本渲染的定制文本编码器

论文标题：
Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering
论文链接：
https://arxiv.org/abs/2403.09622

主要内容：
视觉文本渲染是当代文生图模型面临的一个基本挑战，其核心问题在于文本编码器的缺陷。为了实现准确的文本渲染，来自微软亚洲研究院、清华大学、北京大学和澳大利亚国立大学的研究团队确定了文本编码器的两个关键要求：字符识别和与字形对齐。

研究团队提出利用精心策划的字形-文本配对数据集对字符感知 ByT5 编码器进行微调，从而制作出一系列定制的文本编码器 Glyph-ByT5。他们还提出了一种将 Glyph-ByT5 与 SDXL 集成的有效方法，创建了用于设计图像生成的 Glyph-SDXL 模型。这大大提高了文本渲染的准确性，在设计图像基准测试中，准确率从不到 20% 提高到近 90%。

值得注意的是，Glyph-SDXL 在文本段落渲染方面有了新的发现，通过自动多行布局，实现了几十到几百个字符的高拼写准确性。最后，通过使用一小组高质量、逼真的视觉文本图像对 Glyph-SDXL 进行微调，它在开放域真实图像中场景文本渲染能力的大幅提升。该项研究旨在鼓励人们进一步探索如何为各种具有挑战性的任务设计定制的文本编码器。