AI生成未来-CSDN博客

原创首个自回归文生图风格化！StyleAR突破AI绘图新高度：单张图+提示词，完美复刻任意风格！

当前多模态自回归（AR）模型虽在视觉生成中表现优异，但在风格对齐的文本到图像生成任务中仍面临挑战。该任务需要构建“文本-图像-图像”三元组数据（包含提示词、参考风格图像和目标图像），但大规模获取这类具有特定风格的三元组数据十分困难。现有方法在训练中容易出现内容泄露问题，影响生成图像的风格一致性和语义对齐。

2025-06-09 00:38:12 695

原创图像生成里的“思维链”对决：DPO与GRPO谁主沉浮？港中文&北大等首发系统化对比研究

这项开创性研究为图像生成领域引入 RL 思维链机制提供了系统的理论与实证支撑。DPO 与 GRPO 并非简单的“优劣之分”，而是更适合于不同场景：DPO 适合在已有高质量数据基础上深度优化，追求精细化输出GRPO 则适合泛化需求高、任务分布多样的实际应用环境与此同时，研究也强调了奖励模型作为“训练导航仪”的重要性，未来在奖励模型的泛化性设计上仍有很大提升空间。

2025-06-09 00:34:18 604

原创优于所有开源和商业模型！首个图文声影四模态定制视频生成器HunyuanCustom震撼发布！

HunyuanCustom是一种创新的多模态定制视频生成框架，首次实现了图像、音频、视频和文本四模态联合驱动的视频生成，突破了传统单模态（如图像）的限制。该框架通过时序拼接和跨帧特征增强，显著提升了生成视频中主题的身份一致性，优于现有的开源和商业模型。HunyuanCustom采用了模块化条件注入机制，如AudioNet和视频Patchify对齐，实现了多模态条件的高效解耦与融合，兼顾了灵活性与性能。

2025-05-11 23:27:00 541

原创多模态与生成正迈向终极大一统！阿里最新3万字长文梳理统一的多模态理解和生成模型

本文综述了统一多模态理解与生成模型的最新进展、挑战与机遇。首先，文章介绍了多模态理解与文本生成图像模型的基础概念，并梳理了现有统一模型的三大架构范式：基于扩散的架构、基于自回归的架构，以及融合自回归与扩散机制的混合架构。随后，文章整理了适配统一模型的数据集与评测基准，为后续研究提供资源支持。文章还探讨了该领域面临的核心挑战，包括分词策略、跨模态注意力机制与数据问题。

2025-05-11 23:22:24 783

原创重磅突破！只需一张图，一键生成沉浸式4D全景世界！HoloTime重塑VR/AR体验（北大等）

HoloTime框架提出了一种创新的方法，将静态全景图像转换为动态的4D场景，解决现有技术中沉浸体验受限、数据瓶颈和时空不一致性的问题。包括全景动画生成器和全景时空重建技术，通过两阶段运动引导生成策略和4D高斯泼溅（4D-GS）表征，实现了高质量的全景视频生成和4D场景重建。HoloTime还引入360World数据集，这是首个固定摄像机视角的全景视频综合数据集，为4D生成研究提供了重要支持。实验结果表明，HoloTime在全景视频生成质量和4D场景时空一致性方面均有显著提升，为元宇宙内容生产提供了新范式。

2025-05-08 23:51:19 1113

原创无需外挂！DiT自蒸馏神技SRA横空出世:偷偷自学的表征对齐术让生成质量暴涨！

Diffusion transformer在视觉生成领域展现出了有效的可扩展性和可迁移性。最近的研究发现高质量的内部表征能够加速其生成训练，并提升生成样本的质量然而，现有方法在提供表征指导时，要么引入复杂训练框架，要么依赖大规模预训练模型，这限制了其应用场景和资源效率。

2025-05-08 23:47:07 633

原创 CVPR`25 | SOTA！首揭PCA解决长视频低质问题！FreePCA让长视频丝滑如电影！(中科大)

长视频生成的分布偏移问题使用基于短视频训练的模型生成长视频时，由于帧数变化导致数据分布偏移，出现质量下降、物体缺失和运动缓慢等问题。全局与局部信息难以有效融合现有方法（如全局对齐或局部滑动窗口拼接）无法兼顾全局一致性和局部质量，导致视频出现运动不一致或视觉质量下降。外观与运动耦合的挑战视频中的外观和运动高度耦合，直接融合全局和局部特征会导致生成结果不协调。

2025-05-07 22:48:53 798

原创五一长假冲上HuggingFace榜第二，仅次于Qwen3！浙大哈佛「全能LoRA」杀疯了

精度与效率的权衡问题现有基于微调的方法（Fine-tuning）需要大量计算资源和数据集，效率低。免训练方法（Training-free）在指令理解和编辑质量上表现不佳，精度不足。指令理解与编辑质量不足免训练方法难以准确解析复杂指令，导致编辑效果不理想。微调方法依赖大规模数据训练（如 450K~10M 样本），计算成本高。初始噪声选择影响编辑质量不同的初始噪声会导致不同的编辑效果，如何优化噪声选择以提高输出质量是关键挑战。

2025-05-07 22:44:33 749

原创颠覆影视圈！全球首个开源「无限时长」电影生成模型炸场：昆仑万维把视频生成卷到新时代

Prompt Adherence（提示词遵循）：现有通用多模态大语言模型（MLLM）难以理解电影语法（如镜头构图、演员表情、摄像机运动），导致生成的视频不符合专业电影风格。Motion Dynamics（运动动态）：现有方法在优化时往往牺牲运动质量以提升视觉质量，导致动态效果不足。Video Duration（视频时长）：现有模型受限于分辨率优化，通常只能生成5-10秒的短视频，难以实现长视频合成。Training Stability（训练稳定性）

2025-04-24 22:32:13 1038

原创只需一张图，万物皆可插！Insert Anything开源啦！开创AI图像插入新时代｜浙大&哈佛等

任务局限性：现有方法仅针对特定任务（如人物插入、服装插入），缺乏通用性。控制模式单一：依赖固定控制方式（仅掩码或仅文本引导），灵活性不足。视觉-参考不协调：插入内容与目标场景风格不一致，或丢失参考图像的细节特征。

2025-04-24 22:24:09 632

原创 45倍加速+最新SOTA！VAE与扩散模型迎来端到端联合训练：REPA-E让VAE自我进化！

现有隐空间扩散模型（LDM）采用两阶段训练（先训练VAE，再固定VAE训练扩散模型），导致两个阶段的优化目标不一致，限制了生成性能。直接端到端联合训练VAE和扩散模型时，传统扩散损失（Diffusion Loss）失效，甚至导致性能下降。

2025-04-23 08:01:51 1016

原创让数字人视频告别“恐怖谷“！字节团队最新DreamActor-M1实现人类表情动作像素级操控

最近的基于图像的人像动画方法在逼真的身体和面部动作合成方面取得了一定进展，但在细粒度整体可控性、多尺度适应性和长期时间一致性上仍存在不足，导致表现力和鲁棒性较低。

2025-04-23 07:58:28 1023

原创 AI镜头控制黑科技喜提多项SOTA！浙大&上交等发布统一多模态视频生成框架OmniCam

单图像输入无法实现相机控制基于视频生成的方法难以区分相机角度变化与主体运动。基于重建的方法通常需要多视角信息。现有方法在连续复杂操作中难以保持空间结构，导致失真。缺乏通用数据集：现有数据集（如RealEstate）缺乏多模态支持与多样化轨迹控制。交互成本高且模态受限：现有方法仅支持有限输入模态（如单一文本或视频），且控制能力不足（如长序列、复合运动）。首个多模态相机控制框架：统一文本、视频、图像输入，解决模态割裂问题。OmniTr数据集：填补多模态长序列轨迹数据的空白。6DoF长序列控制。

2025-04-13 10:13:45 1079

原创突破传统“非此即彼”，真灵魂P图！腾讯最新FlexIP黑科技：身份保持和个性化我都要！

身份保持与编辑灵活性的固有矛盾：现有方法在生成模型中难以同时实现高保真身份保持和多样化个性化编辑，通常需要在两者之间做出权衡。跨模态对齐不足：传统零样本方法依赖视觉-语言对齐模块（如Q-former），导致图像生成任务中视觉与文本信息未能有效协同，影响身份保持和编辑效果。控制粒度不足：现有方法通过单一参数调整身份保持强度时，往往产生突变效果，缺乏连续、精细的控制能力。

2025-04-13 10:10:24 764

原创炸裂！昆仑万维开源「元素级视频生成」神器SkyReels-A2！效果吊打闭源商业模型！

元素保真问题：现有视频生成模型难以在生成过程中严格保持多参考元素（如角色、物体、背景）的外观一致性。场景协调性：需解决多元素组合时的全局协调性（如自然交互、合理构图），避免生成内容割裂或失真。输出自然性：传统方法（如I2V）易依赖初始帧的“复制粘贴”，导致动态效果生硬；T2V则因随机性难以控制具体元素。缺乏评估基准：当前缺少针对多元素视频生成（E2V）任务的系统化评估标准。

2025-04-12 09:02:39 667

原创图像编辑进入“精修时代”！“指哪改哪”！北交&美图发布DCEdit：改图不伤背景的终极方案

文本引导图像编辑任务面临的关键挑战是精确定位和编辑目标语义，而以往的方法在这方面存在不足。

2025-04-12 08:57:27 975

原创单一模型统一多图个性化生成！字节重磅开源UNO, FLUX版训练、推理、权重全开源！

字节开源UNO，渐进式数据生成框架和通用定制化模型，实现了从单主体到多主体的高质量图像生成。在多个任务中取得了卓越的性能，包括单主体和多主体驱动的图像生成，并且能泛化到身份保持，换装，风格化等场景。

2025-04-11 23:33:08 1222

原创一张照片，开口说话！阿里等最新音视频对齐技术FantasyTalking：打造超写实可控数字人!

阿里等发布FantasyTalking，通过单张照片+音频，实现与输入音频对应的、包含背景和上下文对象（而不仅限于肖像本身）的连贯全局运动，并能够构建精确对齐的唇部运动视频。

2025-04-11 23:26:45 995

原创业界首款多实例智能线稿上色系统来啦！港科大提出MagicColor：零基础也能产出专业级彩色漫画！

多实例线稿上色的效率与准确性：传统的手工上色方法需要艺术家逐个实例上色，效率低下且容易出错。训练数据不足：现有的生成方法由于缺乏多实例配对数据，难以有效解决多实例上色任务。实例级控制与颜色一致性：现有方法在实例级控制上表现不佳，容易导致颜色失真和细节丢失，且难以保持颜色一致性。

2025-03-29 23:21:08 775

原创单图秒变好莱坞级运镜！MagicMotion实现多物体丝滑运动，复杂场景帧级精准对齐(复旦&微软)

复杂对象运动和多对象运动控制的困难：现有方法在处理复杂对象运动和多对象运动控制时，存在轨迹遵循不精确、对象一致性差和视觉质量下降的问题。单一轨迹控制格式的限制：现有方法仅支持单一格式的轨迹控制，限制了其在不同场景中的适用性。缺乏专门的数据集和基准：目前没有公开的大规模数据集或基准专门用于轨迹可控视频生成，阻碍了鲁棒训练和系统评估。本文的工作主要集中在轨迹可控的视频生成上。给定输入图像和多个轨迹图，模型可以生成符合提供轨迹的视频，其中表示生成视频的长度。本节首先详细解释本文的模型架构。

2025-03-29 23:17:34 976

原创 FLUX秒变高玩！DreamRenderer无需训练一键解决AI绘图『多物乱窜』难题（浙大&哈佛）

多实例内容控制不准确：现有图像生成模型（如FLUX和3DIS）在控制多个实例（或区域）的内容时存在困难，容易出现属性泄漏问题，导致用户无法精确控制每个实例的视觉属性。文本嵌入与视觉信息绑定不准确：现有的文本到图像模型（如T5文本编码器）仅基于文本数据进行预训练，缺乏视觉信息，导致在多实例控制场景下，文本嵌入容易与错误的视觉属性绑定。图像质量与控制的平衡：在联合注意力机制中，过度限制图像标记的注意力范围会导致图像质量下降，而过于宽松的控制则无法保证每个实例的视觉属性准确生成。下图 2 展示了的概览。

2025-03-25 23:04:35 1312

原创性能狂飙89%! 新加坡国立开源Conceptrol：让个性化图像生成更懂你的文字提示

个性化图像生成中的平衡问题：现有的zero-shot adapters方法（如IP-Adapter和OminiControl）在生成个性化图像时，难以平衡保留参考图像内容和遵循文本提示的要求。生成的图像往往只是复制个性化内容，而不是根据文本提示进行调整。设计缺陷：现有的adapters在将个性化图像与文本描述结合时存在设计缺陷，导致生成的图像无法充分利用基础文本到图像扩散模型的概念理解能力。

2025-03-25 23:01:22 907

原创让创意起飞！用户可控的电影级图像到视频生成方法！港中文&Adobe发布MotionCanvas

如何在图像到视频生成系统中实现直观的电影镜头设计。如何有效捕捉用户在运动设计上的意图，包括相机运动和场景空间对象运动。如何表示运动信息，使其能够被视频扩散模型有效利用，以合成图像动画。

2025-03-17 20:52:17 719

原创通向AGI的未来之路！首篇2D/视频/3D/4D统一生成框架全景综述(港科大&中山等)

理解并复现现实世界是人工通用智能（AGI）研究中的一个关键挑战。为实现这一目标，许多现有方法（例如世界模型）旨在捕捉支配物理世界的基本原理，从而实现更精确的模拟和有意义的交互。然而，当前的方法通常将不同模态（包括2D（图像）、视频、3D和4D表示）视为独立领域，忽略了它们之间的相互依赖性。此外，这些方法通常专注于现实的孤立维度，而没有系统地整合它们之间的联系。在本综述中，我们提出了一种多模态生成模型的统一综述，探讨了现实世界模拟中数据维度的演进。

2025-03-17 20:45:27 1388

原创人形机器人全能运动新突破：HUGWBC实现多模态步态精细调控与实时操控（上交&上海AI lab）

当前的人形机器人行走系统单一、被动，缺乏可扩展性，难以实现如人类般的多样化运动（如奔跑、跳跃、单脚跳等），也无法对步态参数（步频、步幅、脚摆高度等）进行细粒度调整。此外，现有方法在执行运动任务时，缺乏对上半身控制的实时干预能力，限制了机器人在复杂任务中的适应性和灵活性。

2025-03-13 15:40:17 980

原创即插即用！腾讯&港中文发布影视后期黑科技！VideoPainter：视频编辑修复8项SOTA!

生成完全遮挡目标：现有方法在处理完全遮挡的目标时存在困难。背景保留与前景生成的平衡：现有方法难以在保留背景的同时生成前景。长视频中的ID一致性：现有方法在长视频中难以保持目标ID的一致性。

2025-03-13 15:36:48 653

原创他们吃的那么香，我都看饿了！港大&字节发布领先商用级图像视频生成模型Goku有点东西

现有的图像与视频生成模型在质量、一致性和计算效率方面仍存在不足。需要构建大规模、高质量的数据集，以支持高性能生成模型的训练。现有的生成架构未能充分统一图像和视频的表示，影响跨模态生成效果。训练大规模生成模型的计算成本高，需优化并行计算与存储机制。

2025-03-11 05:45:43 779

原创破解LoRA融合密码！无需训练夺得SOTA！K-LoRA巧用Top-K策略，让风格与主体完美融合

风格与内容的同时保留：现有方法在融合不同LoRA（Low-Rank Adaptation）时，难以同时有效保留原始图像的主体内容和风格细节。额外训练需求：现有方法通常需要手动调整超参数或进行额外的训练，增加了复杂性和计算成本。

2025-03-11 05:41:55 1088

原创颠覆认知！多模态模型思维链评估白皮书：反思机制成胜负手，感知任务竟被CoT拖后腿

论文：https://arxiv.org/pdf/2502.09621主页：https://mmecot.github.io代码：https://github.com/CaraJ7/MME-CoT数据集：https://huggingface.co/datasets/CaraJ/MME-CoT亮点直击精心策划了 MME-CoT 基准，涵盖了六种多模态推理场景的综合范围。数据收集和注释过程经过严格的人为验证，旨在为社区提供高质量的多模态推理评估数据集。

2025-03-10 07:40:44 773

原创 CVPR 2025 | 数据荒漠终结者！DoraCycle跨模态自循环算法：让生成不再依赖配对数据

复杂领域适应性问题：生成模型在适应复杂领域时，通常需要大量成对的文本-图像数据，但这类数据难以获取且成本高昂。无配对数据的利用：现有的生成模型难以有效利用单模态（如视觉或语言）的无配对数据进行领域适应。跨模态对齐的挑战：在无配对数据的情况下，如何实现视觉和语言之间的跨模态对齐，以支持生成模型的领域适应。

2025-03-10 07:37:18 958

原创自回归模型迎来全能选手！FlexVAR一模型通吃图像生成/修补，推理速度与质量自由调节

本文作者来自北京交通大学、悉尼科技大学、美团、佐治亚理工学院。FlexVAR是一种灵活的视觉自回归图像生成范式，它通过真实值（ground-truth）预测而非残差预测来实现自回归学习，从而能够在任何步骤独立生成合理的图像。在本文的方法中：(1) 一个可扩展的 VQVAE tokenizer 将输入图像量化为多尺度的 token 并重建图像。(2) 一个 FlexVAR transformer 通过尺度自回归建模进行训练，去除了残差预测。

2025-03-06 06:55:15 1483

原创 Hunyuan图生视频发布日期公布：北京时间3月6日16:00

今日，Hunyuan发布了图生视频的发布日期：北京时间3月6日16:00。Hunyuan I2V 是腾讯（Tencent）推出的一款先进的图像到视频生成模型（Image-to-Video Generation Model）。它能够将静态图像转换为动态视频，具有广泛的应用场景，如内容创作、广告制作、影视特效等。二月底，Hunyuan在 Twitter 上发布了一个到的链接，该链接允许首尾帧的 I2V。他们可能只是简单地将这个解决方案集成到本地的Hunyuan中，并且希望对它进行显著的优化。

2025-03-06 06:46:32 455

原创大语言模型都有哪些特质？区分度达97%！DeepSeek&ChatGPT&Claude&Grok&Gemini

区分不同LLM生成的文本：研究旨在识别和区分不同大型语言模型（LLM）生成的文本，揭示各模型的独特输出模式。理解LLM的独特行为：通过分析LLM生成的文本，探讨这些模型的独特行为及其在语义层面的表现。

2025-03-05 22:41:51 735

原创一张图生成舞蹈视频！字节等发布黑科技X-Dancer：零样本音乐驱动，真实感碾压3D方案

论文链接：https://arxiv.org/pdf/2502.17414一种基于Transformer-Diffusion的新型音乐到舞蹈人体图像动画方法，在运动多样性、表现力、音乐对齐和视频质量方面达到了最先进的性能。一种跨模态Transformer模型，通过使用带有关键点置信度的全身2D人体姿态的多尺度tokenization方案，捕捉与音乐特征同步的长距离舞蹈动作。一种基于扩散的人体图像动画模型，能够解释时间姿态tokens并将其转化为一致的高分辨率视频输出。

2025-03-05 22:36:52 815

原创 CVPR 2025 | 多模态六边形战士Magma：会点按钮会搬砖，标注竟让AI长出“时空大脑“

多模态理解与行动的分离：现有的视觉-语言-行动（VLA）模型通常在特定任务上表现良好，但在跨任务和跨领域的泛化能力上表现有限。这些模型往往在特定任务上学习行动策略，而牺牲了通用的多模态理解能力。环境差异带来的挑战：2D数字世界和3D物理世界之间的差异使得VLA模型通常需要分别训练，难以在多个环境中通用。数据集之间的差距：多模态理解（主要是文本描述）与行动任务（主要是空间坐标）之间存在显著差距，导致直接结合数据集难以提升模型性能。一个通用的多模态AI智能体应同时具备多模态理解和行动执行的能力。

2025-03-04 07:52:48 1029

原创告别800秒魔咒！硬件级STA革新视频DiT注意力，让HunyuanVideo效率提升3.5倍!

视频链接：https://www.youtube.com/watch?论文链接：https://arxiv.org/pdf/2502.04507Git链接：https://github.com/hao-ai-lab/FastVideo识别并量化了最先进的视频 DiT 中的 3D 局部性和头部 specialization，揭示了完整 3D 注意力中的大量冗余。引入了，一种基于分块的滑动窗口注意力机制。优化内核与 FlashAttention 3 相比实现了最小的开销，MFU 达到 58.79%。

2025-03-03 07:50:36 1047

原创 CVPR 2025 | 扩散模型炼出新绝技！注意力蒸馏技术：图像生成效果全面碾压传统方法

现有生成扩散模型在图像风格和语义理解方面虽然有进展，但在将参考图像的视觉特征转移到生成图像中时，使用即插即用注意力特征的方法存在局限性。

2025-03-03 07:42:19 1281

原创开启AI短剧新纪元!SkyReels-V1/A1双剑合璧!昆仑万维开源首个面向AI短剧的视频生成模型

身份失真：现有方法在动画生成过程中难以保持人物身份的稳定性，导致身份信息泄露或扭曲。背景不稳定：动画生成时背景容易出现抖动或不一致的现象。面部表情不真实：特别是在仅头部动画的场景中，面部表情缺乏真实感。全身动画的挑战：当动画扩展到全身时，现有方法容易产生视觉伪影或不自然的动作。身份与运动融合的困难：现有方法难以在保持身份一致性的同时，实现细腻的表情和动作生成。给定输入视频序列和参考肖像图像，从视频中提取表情感知的面部标志点，这些标志点作为运动描述符，用于将表情传递到肖像上。

2025-03-02 20:26:36 1463

原创 MIT何恺明再次突破传统：分形递归架构引爆生成模型新纪元！

复杂生成模型的模块化：现有的生成模型（如扩散模型和自回归模型）虽然已经模块化，但缺乏更高层次的模块化抽象，难以构建更复杂的生成系统。非顺序数据的生成：现有方法在处理像素级图像生成等非顺序数据时表现不佳，尤其是在似然估计和生成质量方面。自然数据的分形特性：自然数据（如图像、蛋白质结构等）通常具有分形或近分形特性，现有生成模型未能充分利用这一特性。

2025-03-02 09:38:43 2403

原创 AI长视频生成终现“免费午餐“！RIFLEx颠覆性发现：调控频率就能突破时长魔咒

生成长视频的挑战：现有的视频生成模型在生成长视频时面临时间一致性差的问题，容易出现时间重复或运动减速的现象。长度外推技术的不足：现有的长度外推方法在应用于视频生成时表现不佳，导致时间重复和运动减速。

2025-03-01 08:24:53 991

空空如也

空空如也