视频生成
文章平均质量分 90
AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等人工智能领域前沿技术。更多精彩内容,请关注公众号:AI生成未来
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
告别时空崩坏,生成式游戏迎来“稳态”时刻!南大等StableWorld:打造无限续航虚拟世界
解决的问题当前交互式视频生成模型(如世界模型)在生成长时间序列时,存在严重的稳定性不足与时间不一致性问题,表现为空间漂移和场景崩塌。即使在没有交互或静态场景下,模型也会因误差累积导致生成帧逐渐偏离初始状态,破坏时间一致性。提出的方案提出框架,其核心是动态帧淘汰机制。在滑动窗口生成过程中,动态评估并保留几何一致性的关键帧(尤其是早期较“干净”的帧),淘汰退化或冗余的中间帧,从而从源头抑制误差累积。应用的技术使用算法计算视角重叠度,以评估帧间几何一致性。采用KV-cache 窗口扩展。原创 2026-01-26 23:19:41 · 910 阅读 · 0 评论 -
国产多模态搜索史诗级突破!Qwen3-VL登顶MMEB:支持30+语言,一套模型搞定图文视频
Qwen团队推出基于Qwen3-VL基础模型的多模态检索系统,包含Qwen3-VL-Embedding和Qwen3-VL-Reranker两个系列。该系统通过统一框架将文本、图像、文档和视频映射到公共表示空间,在MMEB-V2基准测试中以77.8分排名第一。创新点包括:采用多阶段训练策略(预训练-微调-蒸馏)、自动化合成3亿条多模态数据、困难负样本挖掘技术,以及支持俄罗斯套娃表示学习和量化技术。实验表明,8B版本模型在保持纯文本能力(MTEB得分67.9)的同时,显著提升了多模态检索性能。原创 2026-01-12 23:05:22 · 881 阅读 · 0 评论 -
AI自己当导演?KlingAvatar 2.0“联合推理”黑科技:让数字人不仅会演,更懂剧本!新SOTA!
《KlingAvatar2.0:多模态协同推理的数字人生成框架》提出了一种创新的时空级联架构,通过多专家协同导演实现高分辨率、长时长数字人视频合成。该系统采用两阶段生成流程:首先生成低分辨率全局"蓝图",再通过时空上采样细化高分辨率子片段。创新性地引入音频/视觉/文本三位专家组成的协同推理导演模块,通过多轮对话解决多模态指令冲突,并新增"负面导演"优化生成质量。原创 2026-01-08 19:20:52 · 491 阅读 · 0 评论 -
一个人就是一支整编剧组!首个“统一导演”模型发布:字节UniMAGE,让脑洞原地变大片
UniMAGE:统一导演模型实现连贯音视频生成 摘要:本文提出UniMAGE,一个创新的统一导演模型,通过整合剧本创作与关键帧生成来解决现有AI视频创作系统叙事断裂的问题。该模型采用混合Transformer架构,创新性地设计了"先交错后解耦"的双阶段训练范式:交错概念学习阶段促进文本-图像的深度理解,解耦专家学习阶段则分离剧本与图像生成以增强灵活性。原创 2026-01-08 19:14:18 · 566 阅读 · 0 评论 -
全栈视觉生成器杀到!上交&快手&南洋理工最新VINO:图像视频生成+编辑一网打尽
VINO提出了一种统一视觉生成框架,将图像/视频生成与编辑任务整合到单一模型中。通过耦合视觉-语言模型与多模态扩散Transformer,实现了对文本、图像和视频信号的一致处理。创新点包括:1)Token边界机制,重用VLM特殊Token标记VAE隐变量边界;2)渐进式训练策略,分阶段扩展模型能力;3)交错全模态上下文处理。实验表明,VINO在保持基础生成能力的同时,显著提升了多任务处理性能,为通用多模态生成系统奠定了基础。主要局限涉及文本渲染能力和计算成本问题。原创 2026-01-07 12:52:37 · 576 阅读 · 0 评论 -
复刻“黑客帝国”子弹时间!SpaceTimePilot:视频变可操控4D游戏,倒放/变速/运镜随你掌控
SpaceTimePilot:首个实现动态场景时空联合控制的视频扩散模型 本文提出了SpaceTimePilot,这是首个能够从单目视频实现对动态场景进行联合空间(摄像机视角)和时间(运动序列)控制的视频扩散模型。主要创新包括:1)引入动画时间嵌入机制,通过1D卷积层将时间控制参数编码注入模型,实现慢动作、反向播放等精细时间控制;2)设计时间扭曲训练方案,增强现有数据集以模拟多样化时间差异;3)构建Cam×Time合成数据集,提供密集时空采样监督;4)改进摄像机条件机制,支持任意初始姿态控制。原创 2026-01-06 13:22:55 · 954 阅读 · 0 评论 -
超越Wan-2.1 和 MatrixGame!Yume1.5:交互式世界生成模型,单卡12 FPS 实时交互渲染
Yume1.5:交互式世界生成模型的突破性进展 摘要: 本研究提出Yume1.5,一个创新的交互式世界生成模型,通过三大核心技术突破解决了动态世界生成的挑战:1)联合时空通道建模(TSCM)方法实现高效长视频生成,保持时间连贯性;2)结合Self-Forcing与TSCM的加速框架,显著提升推理速度;3)创新的双流文本编码方案,实现精细的文本控制。实验表明,模型在Yume-Bench基准测试中指令跟随能力达0.836,在A100 GPU上实现12FPS的540p分辨率生成,且长序列生成质量稳定。原创 2026-01-05 13:29:36 · 1039 阅读 · 0 评论 -
口型匹配、身份保持全面SOTA!清华&可灵X-Dub:抛弃修复思维,用“编辑”实现精准同步!
本文提出X-Dub框架,将视觉配音从掩码修复任务重构为条件良好的视频到视频编辑任务。通过基于DiT的生成器创建嘴型变化的对齐视频对作为训练数据,使编辑器能在完整视觉上下文中学习配音。创新性地采用时间步自适应多阶段学习策略,将不同扩散阶段与结构、嘴部运动和纹理细节学习目标对齐。实验表明,X-Dub在HDTF和新基准ContextDubBench上均达到SOTA性能,在遮挡、动态光照等复杂场景中展现出卓越的鲁棒性,显著优于现有方法。该工作为缺乏成对数据的条件视频编辑任务提供了新思路。原创 2026-01-04 13:30:32 · 633 阅读 · 0 评论 -
首个亚秒启动的14B“数字人”开源!效率飙23倍!SoulX-LiveTalk:32FPS让对话丝滑如真人
SoulX-LiveTalk提出了一种14B参数的实时音频驱动虚拟形象框架,通过创新的双向蒸馏策略和全栈优化实现高效生成。该框架摒弃传统单向范式,采用双向注意力机制增强运动连贯性,结合多步自校正机制防止长周期误差累积。通过混合序列并行、并行VAE等优化技术,系统在8个H800节点上实现0.87秒启动延迟和32FPS吞吐量。实验表明,该框架在视觉质量、唇音同步和长期稳定性上均优于现有方法,训练效率提升23倍。未来将探索模型轻量化以降低硬件需求。原创 2026-01-04 13:24:05 · 644 阅读 · 0 评论 -
5万吊打百万级SOTA!UTS新作VideoCoF:首创“帧链思维”统一视频编辑模型,效果惊艳!
精度与统一性的两难困境:现有的专家模型依赖掩码,精度高但模型无法统一;而统一的上下文模型虽然架构简洁,但缺乏显式的空间提示,导致指令与区域映射微弱,定位不准。长视频外推能力缺失:现有模型通常难以处理超出训练时长的视频,简单的时序拼接会导致位置编码失效,产生运动错位或伪影。VideoCoF 的提出,打破了视频编辑领域长期存在的“精度 vs 统一性”僵局。通过引入帧链的推理机制(Chain-of-Frames),VideoCoF 证明了让模型先“看懂”再“动手”是提升编辑质量的关键。原创 2025-12-24 23:30:01 · 557 阅读 · 0 评论 -
大幅超越π0.5和X-VLA!清北最新Motus:理解、生成、控制全能, 海量视频喂出“最强大脑”
提出了 Motus,这是一个统一的具身基础模型,首次在一个生成式框架内集成了五种主流范式(世界模型 WMs、逆动力学模型 IDMs、视觉-语言-动作模型 VLAs、视频生成模型 VGMs 以及 视频-动作联合预测模型),且未牺牲通用的多模态先验。:引入了混合 Transformer (Mixture-of-Transformer, MoT) 架构,通过“三模态联合注意力机制”连接预训练的视频生成专家、动作专家和理解专家。原创 2025-12-23 23:34:59 · 958 阅读 · 0 评论 -
超越Veo和Runway!可灵开源Kling-Omni:一个模型通吃视频生成、剪辑和多模态推理!
当前视频生成、编辑和智能推理任务之间存在功能分离,导致工具碎片化,难以处理多样化的用户输入并实现高级别的感知与创作协同。碎片化的视频生成与编辑方法:现有模型通常专注于特定任务,如文本/图像到视频合成,且依赖静态文本编码器,难以捕捉复杂视觉细节。视频编辑和理解也常依赖独立的、任务特定的管道或外部适配器,造成集成和扩展困难。交互范式的限制:仅依赖自然语言提示难以捕捉视觉想象的细微之处,文本在描述精确空间关系、视觉参考和时间动态方面存在固有局限,导致用户意图与模型输出之间存在差距。模型智能不足。原创 2025-12-23 23:29:43 · 1535 阅读 · 0 评论 -
加速近200倍!RTX 5090生成高质量视频只要1.9秒!清华&生数等重磅开源TurboDiffusion
文章链接:https://arxiv.org/pdf/2512.16093代码链接: https://github.com/thu-ml/TurboDiffusion提出了一种端到端的视频生成加速框架,在保持视频质量的同时,将扩散模型的生成速度提升了。单张 RTX 5090 GPU 上,该框架能将原本耗时数分钟甚至数小时的视频生成过程缩短至几秒钟(例如从 184 秒缩短至 1.9 秒),实现了实时级别的视频生成体验。原创 2025-12-22 21:43:57 · 872 阅读 · 0 评论 -
NanobananaPro/GPT-4o/Sora2/国产模型谁最强?ViStoryBench:全能故事可视化基准首发!
评估对象涵盖开源图像生成(StoryDiffusion, OmniGen2)、商业闭源模型(MOKI, Doubao, MorphicStudio)、多模态大模型(GPT-4o, Gemini)及视频生成模型(Sora2, Vlogger),揭示不同技术路线的结构性优势与短板。如果把“故事可视化”理解成一次跨媒介的“编码—传输—解码”:文本剧本(编码)→ 模型生成图像/分镜(传输)→ 观众在多镜头中读出人物与情节(解码)。这相当于把“叙事传播”拆成可标注、可复核的单位,让评测不再停留在“感觉像不像”。原创 2025-12-22 21:37:38 · 928 阅读 · 0 评论 -
ICCV`25 | 视频交互“随心所欲”!复旦&通义万相等开源DreamRelation:让想象力从此无边界
项目链接:https://dreamrelation.github.io/文章链接:https://openaccess.thecvf.com/content/ICCV2025/papers/Wei_DreamRelation_Relation-Centric_Video_Customization_ICCV_2025_paper.pdf开源链接:https://github.com/ali-vilab/DreamRelation。原创 2025-12-18 13:37:45 · 719 阅读 · 0 评论 -
直播革命来了!StreamDiffusionV2:140亿参数实时视频飙上58FPS!伯克利&韩松团队等
弥合了离线视频扩散与受实时SLO约束的直播流媒体之间的差距。本免训练系统将SLO-aware批处理/块调度器与sink-token引导的滚动KV缓存、运动感知噪声控制器以及pipeline编排相结合,后者通过并行去噪步骤和模型层实现近线性FPS扩展,而不违反延迟要求。它在异构GPU上运行,支持灵活步骤计数,实现0.5 s TTFF,并在4×H100上达到58.28 FPS(14B)/ 64.52 FPS(1.3B),即使步骤增加也能维持高FPS。原创 2025-12-17 07:56:12 · 530 阅读 · 0 评论 -
NeurIPS 2025 | 硬刚可灵1.5!阿里通义&清华等开源Wan-Move:指哪动哪的“神笔马良”
Wan-Move,一个用于视频生成中精确的运动控制的简单且可扩展的框架。通过点轨迹表示运动,并通过空间映射将其传输到潜在坐标,无需额外的运动编码器。通过隐空间特征复制将轨迹引导注入第一帧条件特征,在不改变架构的情况下实现了有效的运动控制。原创 2025-12-15 23:09:53 · 1237 阅读 · 0 评论 -
ICCV 2025 | 北大王选所推出AnyPortal:像素级操控视频背景,前景细节100%保留!
核心挑战:现有视频生成技术难以实现精细化的细节控制,无法精确对齐用户意图,特别是在视频背景替换任务中。具体问题前景一致性:替换背景时,难以保持前景主体(如人物、物体)的像素级细节和外观一致性,容易出现非预期的改变。时序照明一致性:难以在视频序列中保持照明效果的时序连贯性。资源限制:专业绿幕流程成本高昂;基于数据驱动的视频方法缺乏高质量的配对视频数据集,且模型训练需要巨大的计算资源。原创 2025-12-04 13:08:48 · 1062 阅读 · 0 评论 -
港科大等提出音频驱动多人视频生成新范式 AnyTalker,解锁任意数量角色间的自然互动!
本文介绍了AnyTalker框架,用于生成自然的多人说话视频。该框架引入了可扩展的音频-人脸交叉注意力结构,支持任意数量角色的驱动,并通过创新的两阶段训练方法(先利用单人数据模拟多人说话,再微调增强互动)显著降低了多人生成模型的训练成本。此外,文章首创了基于眼部动作的交互性定量评估指标及其配套数据集。实验表明,AnyTalker在口型同步、视频质量和角色间互动自然度上均优于现有方法。原创 2025-12-04 13:01:25 · 1038 阅读 · 0 评论 -
南洋理工&腾讯最新Rolling Forcing解决流视频生成长期误差累积,连贯如一且长达数分钟!
《RollingForcing:实时自回归长视频扩散技术》提出了一种创新框架,通过滚动窗口联合去噪技术和注意力汇机制,实现了单个GPU上16fps的实时长视频生成。该技术突破性地解决了传统流视频生成中的误差累积问题,能在数分钟时长的视频中保持高质量和一致性。通过双向注意力优化和全局上下文锚定,系统显著降低了长期质量漂移,同时采用高效训练算法减轻曝光偏差。实验表明,该方法在视觉保真度、时间一致性和实时性能上均优于现有技术,为长视频流媒体应用提供了实用解决方案。原创 2025-12-03 13:51:11 · 665 阅读 · 0 评论 -
多模态理解生成“大一统”!Meta&港大等重磅发布Tuna:统一视觉表征,性能碾压Show-o2
Tuna是一个创新的统一多模态模型,通过独特的统一视觉表示设计,在一个框架内实现了图像/视频理解、生成和编辑功能。该模型将VAE编码器与表示编码器直接连接,形成兼顾语义理解和细节生成的统一表示空间。实验表明,Tuna在多个基准测试中达到SOTA水平,性能优于现有解耦模型和统一模型。消融研究验证了其统一表示设计的优越性,证明了理解和生成任务间的协同效应。Tuna的成功为开发更高效的多模态AI系统提供了新思路。原创 2025-12-03 13:41:34 · 705 阅读 · 0 评论 -
破解长视频理解困局!MIT&英伟达最新开源StreamingVLM:统一实时流式视觉语言理解框架
StreamingVLM提出了一种统一的流式视觉语言模型框架,通过创新的训练-推理对齐机制解决长视频处理难题。核心贡献包括:1)采用重叠窗口全注意力训练策略,使短视频训练自然适配无限长度推理;2)设计分层KV缓存机制(注意力汇聚+非对称视觉/文本窗口),在单卡H100上实现8FPS稳定流式推理;3)构建首个超2小时的长时视频评测基准Inf-Streams。实验表明,该方法在解说质量上超越GPT-4omini 66.18%胜率,并在VQA任务中提升5.96%准确率,为实时视频理解提供了实用解决方案。原创 2025-12-02 13:43:11 · 1122 阅读 · 0 评论 -
《黑客帝国》雏形已现?腾讯造出“可对话游戏宇宙”,实时生成、任意交互,世界为你改变!
Hunyuan-GameCraft-2提出了一种指令驱动的交互式游戏世界模型,通过集成文本、键盘和鼠标信号实现语义化交互控制。该模型采用14B参数的MoE架构,结合自回归蒸馏与随机化长视频微调技术,支持高效稳定的长时序视频生成。创新性地定义了交互式视频数据标准,并开发了自动化数据构建管道。实验表明,模型在InterBench基准上取得SOTA性能,能以16FPS实时生成高质量交互视频,显著提升了动作有效性(触发率0.96+)、因果连贯性和物理合理性。原创 2025-12-02 13:34:31 · 670 阅读 · 0 评论 -
图像生成开源界又出“王炸”!南洋理工&阶跃星辰发布iMontage:解锁“多对多”生成新玩法!
摘要 iMontage提出了一种统一的多对多图像生成框架,能够处理可变数量的输入/输出帧,弥合了视频生成与高动态图像生成之间的鸿沟。该模型基于预训练视频骨干网络,通过低侵入式适配策略和任务无关的时序多样化数据管道,结合多任务训练范式,实现了跨异构任务的强大泛化能力。实验表明,iMontage在图像编辑、多条件生成、多视图合成等任务中性能卓越,部分效果媲美商业模型。其核心创新包括:1)混合多模态扩散Transformer架构;2)可分离时间RoPE的位置编码策略;3)分阶段课程训练方案。原创 2025-12-01 13:10:54 · 1815 阅读 · 0 评论 -
告别文字想象!快手可灵团队开源VANS:实现从“语言描述”到“动态演示”跨越,多项SOTA
本文提出视频化下一代事件预测(VNEP)新任务,将事件推理从文本描述升级为动态视频演示。针对该任务的多模态协同挑战,作者设计了VANS框架:通过联合分组相对策略优化(Joint-GRPO)算法,分阶段协调视觉语言模型(VLM)和视频扩散模型(VDM)。VLM首先生成视觉友好的事件描述,VDM随后生成语义准确且视觉连贯的预测视频。为支持模型训练,构建了包含10万样本的VANS-Data-100K数据集。原创 2025-11-24 22:16:56 · 937 阅读 · 0 评论 -
导演之魂,端到端电影制作更进一步!港科大&蚂蚁等最新HoloCine一键生成完整电影场景
摘要: HoloCine提出了一种整体生成连贯多镜头电影视频的新框架,通过窗口交叉注意力机制实现精确的文本-镜头对齐控制,并采用稀疏镜头间自注意力降低计算复杂度,使分钟级视频生成成为可能。该模型在40万标注数据上训练,支持分层文本提示(全局场景描述+分镜头指令),显著提升了角色一致性、叙事连贯性和镜头过渡精度。实验显示,HoloCine在转场控制、长时序一致性等指标上超越现有方法,并展现出突现的记忆能力(如跨镜头的细节保持)与电影语言理解(如运镜、景别控制)。原创 2025-10-28 09:31:23 · 1232 阅读 · 0 评论 -
视频生成实时拖拽一切!南洋理工DragStream实现拖一下就能改大片,告别从头渲染!
本文提出了一种名为DragStream的无训练方法,用于实现流式拖拽导向交互视频操作(REVEL)任务。该任务允许用户在视频生成过程中随时通过拖拽操作对对象进行平移、变形和旋转等编辑与动画效果。针对REVEL任务中的两个关键挑战——拖拽引起的潜在分布漂移和上下文帧干扰,DragStream结合了自适应分布自校正(ADSR)策略和空间-频率选择性优化(SFSO)机制。ADSR利用相邻帧统计信息校正潜在嵌入分布,SFSO通过选择性传播视觉线索减轻上下文干扰。原创 2025-10-20 22:53:16 · 890 阅读 · 0 评论 -
一张照片,秒变专属电影!字节最新Lynx黑魔法护航高保真个性化视频生成
Lynx是一个高保真的个性化视频生成框架,通过两个轻量级适配器(ID-adapter和Ref-adapter)实现从单张图像中保留主体身份。ID-adapter通过交叉注意力注入面部识别特征,Ref-adapter整合VAE编码器的密集特征以增强细节保留。该框架采用时空帧打包和渐进式训练策略,在包含40个主体和20个提示的基准测试中展现出卓越的面部相似性和视频质量,同时保持自然的动作和语义对齐,超越了现有方法。Lynx为个性化视频生成提供了身份保留与生成质量的平衡解决方案。原创 2025-10-11 13:21:50 · 713 阅读 · 0 评论 -
不止补帧,更能补世界!港中文&快手可灵最新VideoCanvas实现真正任意时空视频补全
摘要:本文提出VideoCanvas框架,统一解决任意时空视频补全任务,涵盖图像到视频、视频扩展、修补等场景。通过混合条件策略(空间零填充+时间RoPE插值),在冻结VAE的DiT模型上实现像素级控制,无需重新训练。构建VideoCanvasBench基准测试表明,该方法在保真度、动态性和一致性上优于现有技术,支持灵活的时间戳和空间区域控制,为可控视频生成提供了新范式。原创 2025-10-11 13:18:17 · 1027 阅读 · 0 评论 -
革新视频生成速度的秘密武器!英伟达最新DC-VideoGen:超高清生成实现近15倍加速
本文提出DC-VideoGen框架,通过深度压缩视频自动编码器(DC-AE-V)和轻量级微调策略(AE-Adapt-V),显著提升视频扩散模型的效率。DC-AE-V采用块因果时间设计,在保持重建质量的同时减少潜在空间token数量;AE-Adapt-V通过两阶段适配策略,使预训练模型快速适应新潜在空间。实验表明,该方法在文本/图像到视频生成任务中实现7.7-14.8倍加速,VBench分数提升,且仅需10个GPU天的微调成本。该框架支持单GPU生成4K视频,为高效视频合成提供了实用解决方案。原创 2025-10-09 08:10:11 · 1181 阅读 · 0 评论 -
告别“无脑”生成!VChain视频推理链:仅靠几个关键帧,自动拍出因果清晰的“电影级”短片
VChain:基于视觉思维链的视频生成推理框架 VChain提出了一种创新的视频生成方法,通过引入多模态大模型的视觉思维链(chain-of-visual-thought)来增强视频的逻辑连贯性。该框架的核心是利用GPT等大型模型推理生成具有因果关系的稀疏关键帧序列,作为视频生成的指导。在推理阶段仅对这些关键帧进行轻量化微调,显著提升了复杂动态场景的生成质量,如物体交互和状态转变。实验表明,VChain在保持基础视觉质量的同时,在物理合理性、常识推理和因果一致性等方面表现优异。原创 2025-10-09 08:06:14 · 887 阅读 · 0 评论 -
4分15秒!高质量超长视频生成取得颠覆突破!字节Self-Forcing++超基线50倍,效果炸裂!
Self-Forcing++突破长视频生成瓶颈 摘要:本文提出Self-Forcing++框架,解决了自回归模型在生成长视频时面临的时间性和监督不匹配问题。通过让学生在自身错误累积的长轨迹上进行校正,并利用教师模型的片段指导,该方法实现了三大突破。原创 2025-10-08 16:00:29 · 1619 阅读 · 0 评论 -
视频生成迎来效率革命!字节提出视频生成稀疏注意力机制,计算量降20倍,速度升17.79倍!
BSA框架提出了一种可训练的双向动态稀疏注意力机制,首次在视频扩散训练中对查询(Query)和键值对(Key-Value)进行正交稀疏化处理。该方法设计了不同的动态稀疏策略:针对查询块,基于语义相似度选择关键token;针对键值块,采用统计动态阈值选择关键子集。实验表明,BSA在Wan2.1-1.3B数据集上实现了20倍FLOPs降低、17.7倍训练加速和6倍推理加速,同时保持或超越全注意力机制的生成质量。该框架有效解决了视频DiT模型在高分辨率长视频生成中的计算瓶颈问题。原创 2025-09-10 07:46:43 · 865 阅读 · 0 评论 -
分钟级长视频生成迎来“记忆革命”,7倍成本降低,2.2倍端到端生成速度提升!|斯坦福&字节
本文提出了一种自适应上下文混合(MoC)框架,通过动态路由机制解决长视频生成中的计算瓶颈问题。MoC将每个查询路由到最相关的视频片段,替代传统稀疏注意力机制,并引入因果路由mask确保交互图的无环性。实验表明,该方法能裁剪85%以上的token对,将注意力计算成本降低7倍,在18万token的分钟级视频生成中实现2.2倍加速,同时保持生成质量。创新性地将长视频生成转化为内部检索任务,首次验证了学习型稀疏路由在实际应用中的有效性。原创 2025-09-09 07:45:12 · 1070 阅读 · 0 评论 -
AI试衣间实现360度全身自由!SpreeAI带来VirtualFittingRoom:让自拍秒变沉浸式换装秀
【摘要】VFR框架突破性地实现了从单张图片生成任意时长(720×1152分辨率,24FPS)的高质量虚拟试衣视频,解决了现有技术局限于静态图像或超短视频的痛点。该研究通过自回归分段生成策略,结合"锚视频"全局引导和"前缀条件"局部优化,在保持3D一致性的同时,创新性地实现了分钟级视频的平滑过渡与时间连贯性。实验表明,该方法在四个评估维度(服装/人体一致性、手部交互、任意姿势)上均显著优于基线模型,且支持自由视角渲染。原创 2025-09-08 07:56:13 · 1235 阅读 · 0 评论 -
LongVie突破超长视频生成极限:1分钟电影级丝滑视频,双模态控制告别卡顿退化
本文提出LongVie框架,针对可控长视频生成中的时序不一致性和视觉退化两大挑战进行了创新性解决。通过多模态控制机制(结合稠密深度图与稀疏关键点)、全局归一化和统一噪声初始化,显著提升了生成质量。实验表明,LongVie在1分钟以上视频生成中达到SOTA性能,并构建了包含100个1分钟视频的LongVGenBench评测基准。该工作为超长视频生成提供了新思路和评估标准。原创 2025-08-07 22:24:05 · 1240 阅读 · 0 评论 -
ICCV 2025 | 视频生成迈入“多段一致”新时代!TokensGen用“压缩Token”玩转长视频生成
TokensGen提出创新两阶段框架解决长视频生成难题:1)To2V模型通过视频Tokenizer将短片段压缩为高语义密度Token,实现精细内容控制;2)T2To模型采用扩散Transformer一次性生成长视频Token序列,确保长期一致性。关键技术突破包括自适应FIFO-Diffusion对角去噪策略实现平滑过渡,以及基于PCA的轻量降维保持90%以上压缩率。实验表明,该方法在2分钟视频生成中显著优于主流基线,运动平滑度指标提升20%+,同时支持零拍摄长视频编辑。原创 2025-08-06 22:27:27 · 1651 阅读 · 0 评论 -
ICCV`25 | 视频魔法再升级!字节新神器VTG:输入首尾图+描述词,瞬间生成超自然丝滑转场
本文提出了一种统一的多功能视频过渡生成框架VTG,能够处理物体变形、概念混合、运动预测和场景转换四大任务。通过插值初始化缓解内容突变问题,结合双向运动微调提升时间连贯性,并引入表示对齐正则化增强保真度。实验表明,VTG在构建的TransitBench基准和公开数据集上均优于现有方法,实现了语义相关、高保真且平滑的过渡效果。该框架为内容创作提供了高质量的过渡生成工具。原创 2025-08-06 22:23:55 · 1275 阅读 · 0 评论 -
SIGGRAGH 2025 | AI视频生成新纪元!港大&达摩院发布LayerFlow:分层视频生成黑科技
LayerFlow一种创新的分层视频生成框架,能够同时生成带透明通道的前景、纯净背景及合成全景视频。通过层级文本提示控制和时间维度拼接实现多层协同生成,并设计了多阶段训练策略:先使用低质量视频数据训练基础模型,再通过MotionLoRA适配静态图像,最后用ContentLoRA融合高质量图像与视频数据。实验表明,该方法在审美质量、文本对齐和分层分解任务上显著优于基线模型,为视频编辑与特效制作提供了灵活可控的解决方案。该工作突破了传统T2V模型无法分层控制的限制,同时有效缓解了高质量分层视频数据稀缺的问题。原创 2025-06-18 13:32:09 · 710 阅读 · 0 评论 -
视频去物“魔法橡皮擦”来了!MiniMax-Remover:新SOTA方法告别CFG,6步搞定
视频目标移除中的核心挑战模型容易生成幻觉物体(hallucinated objects)存在视觉伪影(visual artifacts)现有方法的局限性依赖计算成本高的采样过程严重依赖无分类器引导(Classifier-Free Guidance, CFG)推理速度慢,效率低。原创 2025-06-18 13:06:53 · 987 阅读 · 0 评论
分享