大模型论文 | 腾讯发布XMusic框架，打破 AIGC 音乐生成难题-CSDN博客

本文链接：https://blog.csdn.net/m0_56255097/article/details/145210935

1. XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework

在这里插入图片描述

近年来，人工智能生成内容（AIGC）在图像合成与文本生成领域取得了显著进展，所生成的内容可与人类创作相媲美。然而，人工智能生成音乐的质量尚未达到这一水平，主要原因在于有效控制音乐情感并确保高质量输出颇具挑战。

本文提出一种通用的音乐生成框架 XMusic，它支持灵活的输入提示（如图像、视频、文本、标签及哼唱），以生成情感可控且高质量的符号音乐。XMusic 包含两个核心组件：XProjector 和 XComposer。XProjector 将各种模态的输入提示解析为投影空间内的符号音乐元素（即情感、风格、节奏与音符），从而生成匹配的音乐。XComposer 则包含一个生成器和一个选择器。生成器基于我们创新的符号音乐表示法，生成情感可控且旋律优美的音乐；选择器通过构建一个涉及质量评估、情感识别和风格识别任务的多任务学习方案，挑选出高质量的符号音乐。

此外，我们构建了 XMIDI，这是一个大规模音乐数据集，包含 108,023 个标注了精确情感与风格标签的 MIDI 文件。客观和主观评估表明，XMusic 生成的音乐质量出色，显著优于当前最先进的方法。XMusic 项目主页为https://xmusic-project.github.io 。

论文: https://arxiv.org/pdf/2501.08809

2.MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents

在这里插入图片描述

多模态文档检索旨在从海量文档中识别并检索各类多模态内容，如图形、表格、图表以及布局信息等。目前明显缺乏一个强大的基准测试，来有效评估多模态文档检索系统的性能。为填补这一空白，本文提出了一个名为 MMDocIR 的全新基准测试，它涵盖两项不同任务：页面级检索和布局级检索。前者侧重于在长篇文档中定位最相关的页面，而后者旨在检测特定的布局，相较于整页分析，提供了更细粒度的考量。布局可以涉及多种元素，如文本段落、公式、图形、表格或图表。

MMDocIR 基准测试包含一个丰富的数据集，其中 1685 个问题带有专家标注的标签，173843 个问题则使用自举法生成标签，这使其成为推动多模态文档检索训练与评估的关键资源。通过严谨的实验，我们发现：（i）视觉检索器的性能显著优于文本检索器；（ii）MMDocIR 训练集能够有效助力多模态文档检索的训练过程；（iii）借助视觉语言模型（VLM）文本的文本检索器，其表现要比使用光学字符识别（OCR）文本的检索器好得多。

论文: https://arxiv.org/pdf/2501.08828

3.CityDreamer4D: Compositional Generative Model of Unbounded 4D Cities

在这里插入图片描述

近年来，3D 场景生成受到越来越多的关注，并取得了显著进展。而生成 4D 城市比 3D 场景更具挑战性，因为存在结构复杂、视觉形态多样的物体，如建筑物和车辆，而且人类对城市环境中的扭曲更为敏感。

为解决这些问题，我们提出了 CityDreamer4D，这是一种专为生成无边界 4D 城市而设计的组合式生成模型。我们的主要观点是：其一，4D 城市生成应将动态物体（如车辆）与静态场景（如建筑物和道路）分开处理；其二，4D 场景中的所有物体都应由不同类型的神经场构成，分别用于建筑物、车辆和背景元素。具体来说，我们提出了交通场景生成器和无边界布局生成器，利用高度紧凑的鸟瞰图（BEV）表示来生成动态交通场景和静态城市布局。4D 城市中的物体通过将面向背景元素和面向实例的神经场相结合来生成，分别用于背景元素、建筑物和车辆。

为适应背景元素和实例的不同特点，神经场采用定制的生成式哈希网格和周期性位置嵌入作为场景参数化方法。此外，我们还提供了一套全面的用于城市生成的数据集，包括开放街道地图（OSM）、谷歌地球（Google Earth）和 CityTopia。OSM 数据集提供了各种真实世界的城市布局，而谷歌地球和 CityTopia 数据集则提供了大规模、高质量的城市图像，并带有 3D 实例标注。

凭借其组合式设计，CityDreamer4D 支持一系列下游应用，如实例编辑、城市风格化和城市模拟，同时在生成逼真的 4D 城市方面展现出了领先的性能。