自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(401)
  • 收藏
  • 关注

原创 视觉AR逆袭!177M效果媲美675M最新SOTA扩散模型,仅需一个“即插即用”的正则化reAR

摘要: 本文揭示了视觉自回归(AR)生成模型性能瓶颈的关键原因:生成器与分词器之间的不一致性,即生成的Token序列难以被分词器有效解码。为此,提出了一种即插即用的训练正则化方法reAR,通过噪声上下文正则化(缓解暴露偏差)和码本嵌入正则化(对齐生成器与分词器的视觉嵌入)来提升一致性。实验表明,reAR显著提升了生成质量(如VQGAN上FID从3.02降至1.86),甚至以更少参数超越复杂模型(如177M参数的reAR匹配675M参数扩散模型性能)。该方法兼容不同分词器,并展现出良好的扩展性和高效采样能力,

2026-03-24 13:39:19 360

原创 2张显卡即可20FPS流式生成!SoulX-LiveAct开启“小时级”实时数字人交互新时代

不一致的学习信号:现有的大多数强制策略在传播样本级表示时,扩散状态不匹配,导致学习信号不一致和收敛不稳定。推理效率限制:历史表示无限制增长且缺乏结构,阻碍了缓存状态的有效重用,严重限制了推理效率,无法实现真正无限的视频生成。

2026-03-24 13:34:13 484

原创 CVPR 2026|“像素级对齐大师” VA-π: 25分钟微调FID暴降50%

在视觉自回归(AR)模型狂奔的今天,我们似乎已经习惯了将 Tokenizer 和生成器当作完美的黑盒组合。VA-π (Variational Policy Alignment) 深入剖析了这一现象背后的结构逻辑,提出了一种极其轻量且优雅的后训练(Post-training)框架。这项研究摒弃了单纯追求工程跑分的暴力路线,而是用极具数学美感的变分推断(VI)与强化学习(RL),从根本上弥合了生成与重建的鸿沟。

2026-03-18 07:46:48 404

原创 炸裂!单卡实时生成分钟级长视频,北大&字节联合推出14B大模型Helios,速度碾压1.3B

Helios:实时长视频生成新突破 北京大学等机构联合推出14B参数视频生成大模型Helios,在单张H100 GPU上实现19.5FPS的实时视频生成,支持分钟级长视频生成且保持高质量。Helios通过三大创新技术解决行业痛点: 深度压缩流技术:通过多期记忆补丁化和金字塔统一预测校正器大幅减少计算冗余,无需传统加速技术即可实现实时生成 简易防漂移方案:采用相对旋转位置编码消除重复动作,首帧锚点稳定全局色彩,帧感知破坏提升容错率,有效解决长视频漂移问题。

2026-03-18 07:40:10 414

原创 通过强化学习赋能OpenClaw!OpenClaw-RL王炸登场:边聊天边把“全能Agent”给训练了

两者结合能产生显著的优化增益。最终呈现的是一个这样的系统:模型在持续个性化适应独立用户的同时,也在长视野通用智能体任务上不断进步,而所有这一切的训练,完全来源于模型当下正在进行的自然交互。:在模拟“学生写作业”和“老师改作业”的个性化场景中,通过结合 Binary RL 和 OPD 的优化,OpenClaw 仅需经过数次自然交互,评分即可在极短步数内(如 8 步/16 步)实现大幅跃升(学生场景得分从基线的 0.17 跃升至 0.81,老师场景从 0.22 跃升至 0.90),响应风格显著契合用户偏好。

2026-03-17 07:36:59 864

原创 真“六边形战士”!Capybara把图像视频全打通:一个模型搞定T2I、T2V、I2V!

当前视觉内容创作领域存在高度碎片化的问题:现有工作多聚焦于单一模态(如图像或视频)或仅实现部分创作功能(如仅生成或仅编辑)。这导致解决方案彼此割裂、接口互不兼容,且上下文条件(如草图、参考帧)往往作为任务特定的附加模块引入,难以构建一个支持多样化多模态输入、具备统一创作流程的单一系统。

2026-03-17 07:33:00 364

原创 CVPR 2026|复旦大学提出OmniLottie:首个端到端多模态矢量动画生成框架!

在视觉自回归(AR)模型狂奔的今天,我们似乎已经习惯了将 Tokenizer 和生成器当作完美的黑盒组合。VA-π (Variational Policy Alignment) 深入剖析了这一现象背后的结构逻辑,提出了一种极其轻量且优雅的后训练(Post-training)框架。这项研究摒弃了单纯追求工程跑分的暴力路线,而是用极具数学美感的变分推断(VI)与强化学习(RL),从根本上弥合了生成与重建的鸿沟。

2026-03-12 23:55:05 468

原创 图像生成迎来“思考-研究-创造”新范式!Mind-Brush:统一意图分析、多模态搜索和知识推理

现有模型本质上是“静态的文本到像素解码器”,只能执行显式的指令映射,无法理解用户的隐式意图。即使是新出现的统一理解与生成模型,也难以在单一模型内完成需要复杂知识推理(如数学推理、常识推理)的任务。由于受限于预训练数据的时间截断,模型的内部知识是静态的。这使得它们无法处理涉及实时新闻、新兴概念或需要最新事实验证的生成任务,与现实世界的动态发展脱节。为了探究“认知生成”的边界,本文提出了 Mind-Bench,一个包含 500 个样本的综合基准,旨在客观评估依赖于动态外部知识和用户意图推理的生成能力。

2026-03-12 23:51:16 337

原创 CVPR 2026|复旦大学提出OmniLottie:首个端到端多模态矢量动画生成框架!

摘要:复旦大学等机构提出首个端到端多模态矢量动画生成框架OmniLottie,可直接从文本/图像/视频指令生成Lottie格式动画。创新点包括:1) 设计Lottie分词器将JSON压缩为高效指令序列,实现10倍数据压缩;2) 开源200万规模的MMLottie-2M数据集;3) 基于Qwen2.5-VL构建多模态模型,支持跨模态动画生成。实验表明其生成质量优于现有方法,在保持矢量特性的同时解决了传统视频动画的体积大、难编辑等问题,为AI动画创作提供了新范式。

2026-03-09 23:57:17 584

原创 ICLR 2026 | DragFlow 让DiT也能“指哪打哪”:基于区域监督的拖拽式图像编辑新SOTA

摘要: DragFlow是首个基于Diffusion Transformer(DiT)架构的图像精确区域编辑框架,通过创新性“区域仿射监督”范式解决了传统UNet方法在DiT模型上的适配难题。该方法摒弃逐点追踪策略,利用整体区域特征匹配优化,显著提升了FLUX等DiT模型的编辑精度与稳定性。结合适配器增强反演和硬约束背景保持技术,DragFlow在复杂场景中实现了高保真编辑,并在新基准ReDBench上取得SOTA性能(如平均距离指标降低51.21→20.15)。

2026-03-09 23:53:29 511

原创 CVPR 2026|“全能AI海报设计师”PosterOmni开源: 6大任务笑傲开源社区,媲美闭源商用

摘要: PosterOmni提出了一种统一的多任务图像/海报生成模型,专注于从参考图出发完成海报编辑与再创作。不同于传统方案将任务拆分为多个独立工具,PosterOmni通过单一模型覆盖六类设计任务:局部编辑(扩图、补全、改比例、ID保持)和全局创作(风格迁移、布局迁移)。其核心方法包括:1)自动化构建高质量多任务数据集PosterOmni-200K;2)先训练局部与全局专家模型,再通过任务蒸馏融合能力;3)引入统一奖励模型与强化学习(Omni-Edit RL)对齐审美与任务完成度。

2026-03-02 23:08:33 766

原创 好莱坞导演坐不住了!SkyReels-V4发布:首个影院级音视频联合生成/修复/编辑统一框架

摘要:SkyReels-V4是一个创新的多模态音视频基础模型,采用双流多模态扩散Transformer(MMDiT)架构,实现视频和音频的联合生成。该模型通过统一的通道拼接修复框架,支持图生视频、视频扩展、视频编辑等多种任务。其高效生成策略结合低分辨率全序列和高分辨率关键帧生成,配合超分辨率和插帧技术,实现了1080p、32FPS、15秒带同步音频的多镜头视频生成。SkyReels-V4在ArtificialAnalysis竞技场盲测中排名第三,在综合评估基准中表现优于多个主流系统。

2026-03-02 23:04:56 696

原创 角色动画最新SOTA!港大&蚂蚁等CoDance:解绑-重绑实现任意数量、位置角色同屏起舞

摘要:本文提出CoDance框架,创新性地解决多主体动画生成中的"四个任意"挑战(任意主体类型、数量、空间位置和姿态)。通过提出"解绑-重绑"范式,该方法打破了传统刚性空间对齐限制:Unbind模块采用姿态偏移编码器实现动作语义解耦,Rebind模块通过文本提示和主体掩码实现精确重绑定。实验表明,CoDance在新建的CoDanceBench和现有基准上均取得SOTA性能,用户调研显示其在视频质量(0.90)、身份保持(0.88)和时序一致性(0.83)方面显著领先。该框架为多主体动画生成提供了新的解决方案

2026-01-28 00:02:30 946

原创 扩散模型对齐迎来“最强解”!HyperAlign屠榜评测:超网络动态适配,画质、语义双巅峰

HyperAlign提出了一种基于超网络的扩散模型测试时对齐框架,通过动态生成低秩适配权重(LoRA)调制去噪轨迹,高效实现生成图像与人类偏好(语义一致性、视觉美感)的对齐。其核心设计包括:1)超网络根据时间步和输入提示生成自适应LoRA参数;2)三种变体(逐步骤/初始步/分段生成)平衡效率与性能;3)结合奖励优化与偏好正则化,避免奖励过优化。

2026-01-27 23:54:33 477

原创 一统视觉江湖!OpenVision 3发布:一个编码器实现理解与生成完美统一,性能双杀CLIP

是一种先进的视觉编码器,能够学习单 一、统一的视觉表示,同时服务于图像理解和图像生成任务。:核心架构非常简洁,将 VAE 压缩后的图像隐空间变量输入到 ViT 编码器中,并训练其输出以支持两个互补的角色(重建与语义理解)。:通过在共享隐空间中联合优化重建驱动和语义驱动的信号,编码器学习到的表示在两种机制下都能很好地协同和泛化。图1。OpenVision 3架构设计和性能亮点概述。左侧面板:OpenVision 3的架构。我们采用冻结的VAE和可训练的ViT作为统一分词器,生成同时输入生成和理解分支的令牌。

2026-01-26 23:24:14 929

原创 告别时空崩坏,生成式游戏迎来“稳态”时刻!南大等StableWorld:打造无限续航虚拟世界

解决的问题当前交互式视频生成模型(如世界模型)在生成长时间序列时,存在严重的稳定性不足与时间不一致性问题,表现为空间漂移和场景崩塌。即使在没有交互或静态场景下,模型也会因误差累积导致生成帧逐渐偏离初始状态,破坏时间一致性。提出的方案提出框架,其核心是动态帧淘汰机制。在滑动窗口生成过程中,动态评估并保留几何一致性的关键帧(尤其是早期较“干净”的帧),淘汰退化或冗余的中间帧,从而从源头抑制误差累积。应用的技术使用算法计算视角重叠度,以评估帧间几何一致性。采用KV-cache 窗口扩展。

2026-01-26 23:19:41 931

原创 强势斩获6项SOTA!UniCorn打通理解与生成任督二脉,靠“内省”重构多模态认知

本文提出UniCorn,一种自监督框架,用于解决统一多模态模型(UMMs)中“理解能力强但生成能力弱”的“传导性失语症”问题。UniCorn通过多角色自我博弈(提议者、求解者、裁判)生成高质量数据,并结合认知模式重构(描述、判断、反思)实现自我提升,无需外部监督。实验表明,UniCorn在TIIF(73.8)、DPG(86.8)等基准上达到SOTA性能,并在新提出的UniCycle基准(T2I2T循环一致性)上验证了多模态智能的协同性。该方法仅需5k自生成数据即超越依赖30k GPT-4蒸馏数据的模型.

2026-01-12 23:14:55 930

原创 国产多模态搜索史诗级突破!Qwen3-VL登顶MMEB:支持30+语言,一套模型搞定图文视频

Qwen团队推出基于Qwen3-VL基础模型的多模态检索系统,包含Qwen3-VL-Embedding和Qwen3-VL-Reranker两个系列。该系统通过统一框架将文本、图像、文档和视频映射到公共表示空间,在MMEB-V2基准测试中以77.8分排名第一。创新点包括:采用多阶段训练策略(预训练-微调-蒸馏)、自动化合成3亿条多模态数据、困难负样本挖掘技术,以及支持俄罗斯套娃表示学习和量化技术。实验表明,8B版本模型在保持纯文本能力(MTEB得分67.9)的同时,显著提升了多模态检索性能。

2026-01-12 23:05:22 936

原创 AI自己当导演?KlingAvatar 2.0“联合推理”黑科技:让数字人不仅会演,更懂剧本!新SOTA!

《KlingAvatar2.0:多模态协同推理的数字人生成框架》提出了一种创新的时空级联架构,通过多专家协同导演实现高分辨率、长时长数字人视频合成。该系统采用两阶段生成流程:首先生成低分辨率全局"蓝图",再通过时空上采样细化高分辨率子片段。创新性地引入音频/视觉/文本三位专家组成的协同推理导演模块,通过多轮对话解决多模态指令冲突,并新增"负面导演"优化生成质量。

2026-01-08 19:20:52 510

原创 一个人就是一支整编剧组!首个“统一导演”模型发布:字节UniMAGE,让脑洞原地变大片

UniMAGE:统一导演模型实现连贯音视频生成 摘要:本文提出UniMAGE,一个创新的统一导演模型,通过整合剧本创作与关键帧生成来解决现有AI视频创作系统叙事断裂的问题。该模型采用混合Transformer架构,创新性地设计了"先交错后解耦"的双阶段训练范式:交错概念学习阶段促进文本-图像的深度理解,解耦专家学习阶段则分离剧本与图像生成以增强灵活性。

2026-01-08 19:14:18 603

原创 英伟达甩出“核弹级”Nemotron 3全家桶!Mamba+MoE架构:百万上下文+极致性价比

推出了 Nemotron 3 系列模型(Nano, Super, Ultra),该系列模型完全开源(包括权重、数据和训练配方)。: 采用了混合 Mamba-Transformer 的专家混合(MoE)架构,实现了极致的推理效率和吞吐量。: 支持高达 1M token 的上下文长度,且在长序列推理中表现优异。: Super 和 Ultra 模型引入了 LatentMoE 和 NVFP4 训练,进一步优化了精度与效率的平衡。

2026-01-07 12:59:20 1233

原创 全栈视觉生成器杀到!上交&快手&南洋理工最新VINO:图像视频生成+编辑一网打尽

VINO提出了一种统一视觉生成框架,将图像/视频生成与编辑任务整合到单一模型中。通过耦合视觉-语言模型与多模态扩散Transformer,实现了对文本、图像和视频信号的一致处理。创新点包括:1)Token边界机制,重用VLM特殊Token标记VAE隐变量边界;2)渐进式训练策略,分阶段扩展模型能力;3)交错全模态上下文处理。实验表明,VINO在保持基础生成能力的同时,显著提升了多任务处理性能,为通用多模态生成系统奠定了基础。主要局限涉及文本渲染能力和计算成本问题。

2026-01-07 12:52:37 598

原创 北交&字节最新开源ThinkGen:首次显式利用多模态CoT处理生成任务,多项任务性能SOTA

摘要:ThinkGen首次提出思考驱动的视觉生成框架,通过解耦MLLM和DiT架构实现高级推理与高质量图像生成的协同。创新性引入VGI-refine模块消除冗余信息,并提出SepGRPO交替训练策略优化模型对齐。实验表明,该框架在WISEBench等基准测试中性能提升显著(如推理生成任务提升21%),在文本渲染、图像编辑等任务均达到SOTA水平。消融研究验证了各模块的有效性,特别是预填充状态对短提示任务的改进作用。该工作为构建智能通用生成模型提供了新思路。

2026-01-06 13:34:01 959

原创 复刻“黑客帝国”子弹时间!SpaceTimePilot:视频变可操控4D游戏,倒放/变速/运镜随你掌控

SpaceTimePilot:首个实现动态场景时空联合控制的视频扩散模型 本文提出了SpaceTimePilot,这是首个能够从单目视频实现对动态场景进行联合空间(摄像机视角)和时间(运动序列)控制的视频扩散模型。主要创新包括:1)引入动画时间嵌入机制,通过1D卷积层将时间控制参数编码注入模型,实现慢动作、反向播放等精细时间控制;2)设计时间扭曲训练方案,增强现有数据集以模拟多样化时间差异;3)构建Cam×Time合成数据集,提供密集时空采样监督;4)改进摄像机条件机制,支持任意初始姿态控制。

2026-01-06 13:22:55 966

原创 超越Wan-2.1 和 MatrixGame!Yume1.5:交互式世界生成模型,单卡12 FPS 实时交互渲染

Yume1.5:交互式世界生成模型的突破性进展 摘要: 本研究提出Yume1.5,一个创新的交互式世界生成模型,通过三大核心技术突破解决了动态世界生成的挑战:1)联合时空通道建模(TSCM)方法实现高效长视频生成,保持时间连贯性;2)结合Self-Forcing与TSCM的加速框架,显著提升推理速度;3)创新的双流文本编码方案,实现精细的文本控制。实验表明,模型在Yume-Bench基准测试中指令跟随能力达0.836,在A100 GPU上实现12FPS的540p分辨率生成,且长序列生成质量稳定。

2026-01-05 13:29:36 1091

原创 港中文&字节联合推出DreamOmni3:解锁“涂鸦+图文”联合输入,重新定义多模态生成与编辑

《DreamOmni3:基于涂鸦的多模态图像编辑与生成框架》提出了一种创新性解决方案,通过整合文本、图像和涂鸦指令,显著提升了图像编辑的交互灵活性与精确度。研究定义了两类新任务(基于涂鸦的编辑与生成),并构建了包含10万+样本的高质量数据集。核心创新在于联合输入方案设计,通过共享索引与位置编码实现涂鸦区域的精准定位,避免了传统二值掩码的局限性。实验表明,该框架在人工评估中优于GPT-4o等主流模型,尤其在保持编辑一致性和消除涂鸦痕迹方面表现突出。这项工作为多模态图像创作提供了新的研究范式和技术基准。

2026-01-05 13:24:39 807

原创 口型匹配、身份保持全面SOTA!清华&可灵X-Dub:抛弃修复思维,用“编辑”实现精准同步!

本文提出X-Dub框架,将视觉配音从掩码修复任务重构为条件良好的视频到视频编辑任务。通过基于DiT的生成器创建嘴型变化的对齐视频对作为训练数据,使编辑器能在完整视觉上下文中学习配音。创新性地采用时间步自适应多阶段学习策略,将不同扩散阶段与结构、嘴部运动和纹理细节学习目标对齐。实验表明,X-Dub在HDTF和新基准ContextDubBench上均达到SOTA性能,在遮挡、动态光照等复杂场景中展现出卓越的鲁棒性,显著优于现有方法。该工作为缺乏成对数据的条件视频编辑任务提供了新思路。

2026-01-04 13:30:32 650

原创 首个亚秒启动的14B“数字人”开源!效率飙23倍!SoulX-LiveTalk:32FPS让对话丝滑如真人

SoulX-LiveTalk提出了一种14B参数的实时音频驱动虚拟形象框架,通过创新的双向蒸馏策略和全栈优化实现高效生成。该框架摒弃传统单向范式,采用双向注意力机制增强运动连贯性,结合多步自校正机制防止长周期误差累积。通过混合序列并行、并行VAE等优化技术,系统在8个H800节点上实现0.87秒启动延迟和32FPS吞吐量。实验表明,该框架在视觉质量、唇音同步和长期稳定性上均优于现有方法,训练效率提升23倍。未来将探索模型轻量化以降低硬件需求。

2026-01-04 13:24:05 697

原创 顶刊TPAMI!字节联合中科大重磅打造文本到图像定制化生成新范式!

论文链接:https://ieeexplore.ieee.org/abstract/document/11206511代码链接:https://github.com/bytedance/RealCustom项目链接:https://corleone-huang.github.io/RealCustom_plus_plus/突破传统方法存在的主体一致性和文本可控性之间的权衡取舍问题,创新性地将参考图主体表征为真实文本单词,通过解耦文本和参考图的影响区域,同时实现高度主体一致性和文本可控性;

2025-12-24 23:36:20 354

原创 5万吊打百万级SOTA!UTS新作VideoCoF:首创“帧链思维”统一视频编辑模型,效果惊艳!

精度与统一性的两难困境:现有的专家模型依赖掩码,精度高但模型无法统一;而统一的上下文模型虽然架构简洁,但缺乏显式的空间提示,导致指令与区域映射微弱,定位不准。长视频外推能力缺失:现有模型通常难以处理超出训练时长的视频,简单的时序拼接会导致位置编码失效,产生运动错位或伪影。VideoCoF 的提出,打破了视频编辑领域长期存在的“精度 vs 统一性”僵局。通过引入帧链的推理机制(Chain-of-Frames),VideoCoF 证明了让模型先“看懂”再“动手”是提升编辑质量的关键。

2025-12-24 23:30:01 579

原创 大幅超越π0.5和X-VLA!清北最新Motus:理解、生成、控制全能, 海量视频喂出“最强大脑”

提出了 Motus,这是一个统一的具身基础模型,首次在一个生成式框架内集成了五种主流范式(世界模型 WMs、逆动力学模型 IDMs、视觉-语言-动作模型 VLAs、视频生成模型 VGMs 以及 视频-动作联合预测模型),且未牺牲通用的多模态先验。:引入了混合 Transformer (Mixture-of-Transformer, MoT) 架构,通过“三模态联合注意力机制”连接预训练的视频生成专家、动作专家和理解专家。

2025-12-23 23:34:59 1011

原创 超越Veo和Runway!可灵开源Kling-Omni:一个模型通吃视频生成、剪辑和多模态推理!

当前视频生成、编辑和智能推理任务之间存在功能分离,导致工具碎片化,难以处理多样化的用户输入并实现高级别的感知与创作协同。碎片化的视频生成与编辑方法:现有模型通常专注于特定任务,如文本/图像到视频合成,且依赖静态文本编码器,难以捕捉复杂视觉细节。视频编辑和理解也常依赖独立的、任务特定的管道或外部适配器,造成集成和扩展困难。交互范式的限制:仅依赖自然语言提示难以捕捉视觉想象的细微之处,文本在描述精确空间关系、视觉参考和时间动态方面存在固有局限,导致用户意图与模型输出之间存在差距。模型智能不足。

2025-12-23 23:29:43 1684

原创 加速近200倍!RTX 5090生成高质量视频只要1.9秒!清华&生数等重磅开源TurboDiffusion

文章链接:https://arxiv.org/pdf/2512.16093代码链接: https://github.com/thu-ml/TurboDiffusion提出了一种端到端的视频生成加速框架,在保持视频质量的同时,将扩散模型的生成速度提升了。单张 RTX 5090 GPU 上,该框架能将原本耗时数分钟甚至数小时的视频生成过程缩短至几秒钟(例如从 184 秒缩短至 1.9 秒),实现了实时级别的视频生成体验。

2025-12-22 21:43:57 939

原创 NanobananaPro/GPT-4o/Sora2/国产模型谁最强?ViStoryBench:全能故事可视化基准首发!

评估对象涵盖开源图像生成(StoryDiffusion, OmniGen2)、商业闭源模型(MOKI, Doubao, MorphicStudio)、多模态大模型(GPT-4o, Gemini)及视频生成模型(Sora2, Vlogger),揭示不同技术路线的结构性优势与短板。如果把“故事可视化”理解成一次跨媒介的“编码—传输—解码”:文本剧本(编码)→ 模型生成图像/分镜(传输)→ 观众在多镜头中读出人物与情节(解码)。这相当于把“叙事传播”拆成可标注、可复核的单位,让评测不再停留在“感觉像不像”。

2025-12-22 21:37:38 970

原创 ICCV`25 | 视频交互“随心所欲”!复旦&通义万相等开源DreamRelation:让想象力从此无边界

项目链接:https://dreamrelation.github.io/文章链接:https://openaccess.thecvf.com/content/ICCV2025/papers/Wei_DreamRelation_Relation-Centric_Video_Customization_ICCV_2025_paper.pdf开源链接:https://github.com/ali-vilab/DreamRelation。

2025-12-18 13:37:45 748

原创 彻底告别VAE!清华x可灵联手开源SVG-T2I:生成理解合二为一,性能媲美SD3

核心挑战:视觉基础模型虽然在理解与感知上表现出色,但其表征空间尚未被充分用于大规模、高质量的视觉生成。研究空白:在VFM特征空间内端到端地训练大规模文本到图像生成模型是一个未经充分探索的领域,缺乏相关验证和可行的方案。

2025-12-18 07:48:18 864

原创 直播革命来了!StreamDiffusionV2:140亿参数实时视频飙上58FPS!伯克利&韩松团队等

弥合了离线视频扩散与受实时SLO约束的直播流媒体之间的差距。本免训练系统将SLO-aware批处理/块调度器与sink-token引导的滚动KV缓存、运动感知噪声控制器以及pipeline编排相结合,后者通过并行去噪步骤和模型层实现近线性FPS扩展,而不违反延迟要求。它在异构GPU上运行,支持灵活步骤计数,实现0.5 s TTFF,并在4×H100上达到58.28 FPS(14B)/ 64.52 FPS(1.3B),即使步骤增加也能维持高FPS。

2025-12-17 07:56:12 565

原创 多任务多模态全统一!港科大&快手可灵等最新UnityVideo:生成、理解、控制多项SOTA!

UnityVideo,这是一个在单一 Diffusion Transformer 中对多种视觉模态和任务进行建模的统一框架。通过利用模态自适应学习,UnityVideo 实现了 RGB 视频与辅助模态(深度、光流、分割、骨骼和 DensePose)之间的双向学习,从而在两类任务上都实现了相互增强。本文的实验展示了其在不同基准上的最先进性能,以及对未见模态组合的强大零样本泛化能力。

2025-12-17 07:51:21 495

原创 Open-Sora-Plan团队最新力作UniWorld-V2:图像编辑涨点神器,旧模型也能秒变SoTA!

解决的问题:当前基于指令的图像编辑模型通常依赖于监督微调训练,这导致模型在标注模式上过拟合,限制了它们在训练分布之外的探索和泛化能力。此外,编辑指令和任务的多样性使得缺乏通用的奖励模型。提出的方案:引入Edit-R1框架,该框架基于策略优化,结合了扩散负面感知微调(DiffusionNFT)和多模态大语言模型(MLLM),以提供免训练的奖励机制,帮助解决模型在不同指令环境下的泛化问题。应用的技术。

2025-12-16 13:56:35 778

原创 视频模型降维打击?浙大&哈佛提出 IF-Edit:无需训练,用“生成视频”的思路修图!

IF-Edit 给我们提供了一个全新的视角:图像编辑不仅仅是 Image-to-Image 的翻译,更可以是 Image-to-Video-to-Image 的世界模拟。通过复用强大的视频生成模型,我们无需收集昂贵的成对编辑数据,就能实现懂物理、懂因果的 Zero-Shot 图像编辑。随着视频模型(如 Sora, Wan, HunyuanVideo)的不断进化,这种“降维打击”式的修图方法或许会成为未来的主流。

2025-12-16 13:52:48 929

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除