1. XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework
近年来,人工智能生成内容(AIGC)在图像合成与文本生成领域取得了显著进展,所生成的内容可与人类创作相媲美。然而,人工智能生成音乐的质量尚未达到这一水平,主要原因在于有效控制音乐情感并确保高质量输出颇具挑战。
本文提出一种通用的音乐生成框架 XMusic,它支持灵活的输入提示(如图像、视频、文本、标签及哼唱),以生成情感可控且高质量的符号音乐。XMusic 包含两个核心组件:XProjector 和 XComposer。XProjector 将各种模态的输入提示解析为投影空间内的符号音乐元素(即情感、风格、节奏与音符),从而生成匹配的音乐。XComposer 则包含一个生成器和一个选择器。生成器基于我们创新的符号音乐表示法,生成情感可控且旋律优美的音乐;选择器通过构建一个涉及质量评估、情感识别和风格识别任务的多任务学习方案,挑选出高质量的符号音乐。
此外,我们构建了 XMIDI,这是一个大规模音乐数据集,包含 108,023 个标注了精确情感与风格标签的 MIDI 文件。客观和主观评估表明,XMusic 生成的音乐质量出色,显著优于当前最先进的方法。XMusic 项目主页为https://xmusic-project.github.io 。
论文: https://arxiv.org/pdf/2501.08809
2.MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents
多模态文档检索旨在从海量文档中识别并检索各类多模态内容,如图形、表格、图表以及布局信息等。目前明显缺乏一个强大的基准测试,来有效评估多模态文档检索系统的性能。为填补这一空白,本文提出了一个名为 MMDocIR 的全新基准测试,它涵盖两项不同任务:页面级检索和布局级检索。前者侧重于在长篇文档中定位最相关的页面,而后者旨在检测特定的布局,相较于整页分析,提供了更细粒度的考量。布局可以涉及多种元素,如文本段落、公式、图形、表格或图表。
MMDocIR 基准测试包含一个丰富的数据集,其中 1685 个问题带有专家标注的标签,173843 个问题则使用自举法生成标签,这使其成为推动多模态文档检索训练与评估的关键资源。通过严谨的实验,我们发现:(i)视觉检索器的性能显著优于文本检索器;(ii)MMDocIR 训练集能够有效助力多模态文档检索的训练过程;(iii)借助视觉语言模型(VLM)文本的文本检索器,其表现要比使用光学字符识别(OCR)文本的检索器好得多。
论文: https://arxiv.org/pdf/2501.08828
3.CityDreamer4D: Compositional Generative Model of Unbounded 4D Cities
近年来,3D 场景生成受到越来越多的关注,并取得了显著进展。而生成 4D 城市比 3D 场景更具挑战性,因为存在结构复杂、视觉形态多样的物体,如建筑物和车辆,而且人类对城市环境中的扭曲更为敏感。
为解决这些问题,我们提出了 CityDreamer4D,这是一种专为生成无边界 4D 城市而设计的组合式生成模型。我们的主要观点是:其一,4D 城市生成应将动态物体(如车辆)与静态场景(如建筑物和道路)分开处理;其二,4D 场景中的所有物体都应由不同类型的神经场构成,分别用于建筑物、车辆和背景元素 。具体来说,我们提出了交通场景生成器和无边界布局生成器,利用高度紧凑的鸟瞰图(BEV)表示来生成动态交通场景和静态城市布局。4D 城市中的物体通过将面向背景元素和面向实例的神经场相结合来生成,分别用于背景元素、建筑物和车辆。
为适应背景元素和实例的不同特点,神经场采用定制的生成式哈希网格和周期性位置嵌入作为场景参数化方法。此外,我们还提供了一套全面的用于城市生成的数据集,包括开放街道地图(OSM)、谷歌地球(Google Earth)和 CityTopia。OSM 数据集提供了各种真实世界的城市布局,而谷歌地球和 CityTopia 数据集则提供了大规模、高质量的城市图像,并带有 3D 实例标注。
凭借其组合式设计,CityDreamer4D 支持一系列下游应用,如实例编辑、城市风格化和城市模拟,同时在生成逼真的 4D 城市方面展现出了领先的性能。
论文: https://arxiv.org/pdf/2501.08983
4.RepVideo: Rethinking Cross-Layer Representation for Video Generation
随着扩散模型的引入,视频生成取得了显著进展,极大提升了生成视频的质量。然而,近期研究主要聚焦于扩大模型训练规模,对于表征在视频生成过程中的直接影响,所提供的见解却十分有限。
在本文中,我们首先对中间层特征的特点展开研究,发现不同层的注意力图存在显著差异。这些差异导致语义表征不稳定,使得特征之间出现累积性差异,最终降低了相邻帧之间的相似度,对时间连贯性产生负面影响。
为解决这一问题,我们提出了 RepVideo,这是一种针对文本转视频扩散模型的增强表征框架。该框架通过积累相邻层的特征来形成更丰富的表征,从而捕捉到更稳定的语义信息。随后,这些增强后的表征被用作注意力机制的输入,在确保相邻帧特征一致性的同时,提升了语义表达能力。
大量实验表明,我们的 RepVideo 不仅显著增强了生成精确空间外观的能力,比如能够捕捉多个物体之间复杂的空间关系,还提升了视频生成中的时间连贯性。
论文: https://arxiv.org/pdf/2501.08994
5. 如何系统学习掌握AI大模型?
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份
全面的AI大模型学习资源
,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享
!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 2024行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
5. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码
,免费领取【保证100%免费
】