自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(389)
  • 收藏
  • 关注

原创 角色动画最新SOTA!港大&蚂蚁等CoDance:解绑-重绑实现任意数量、位置角色同屏起舞

摘要:本文提出CoDance框架,创新性地解决多主体动画生成中的"四个任意"挑战(任意主体类型、数量、空间位置和姿态)。通过提出"解绑-重绑"范式,该方法打破了传统刚性空间对齐限制:Unbind模块采用姿态偏移编码器实现动作语义解耦,Rebind模块通过文本提示和主体掩码实现精确重绑定。实验表明,CoDance在新建的CoDanceBench和现有基准上均取得SOTA性能,用户调研显示其在视频质量(0.90)、身份保持(0.88)和时序一致性(0.83)方面显著领先。该框架为多主体动画生成提供了新的解决方案

2026-01-28 00:02:30 887

原创 扩散模型对齐迎来“最强解”!HyperAlign屠榜评测:超网络动态适配,画质、语义双巅峰

HyperAlign提出了一种基于超网络的扩散模型测试时对齐框架,通过动态生成低秩适配权重(LoRA)调制去噪轨迹,高效实现生成图像与人类偏好(语义一致性、视觉美感)的对齐。其核心设计包括:1)超网络根据时间步和输入提示生成自适应LoRA参数;2)三种变体(逐步骤/初始步/分段生成)平衡效率与性能;3)结合奖励优化与偏好正则化,避免奖励过优化。

2026-01-27 23:54:33 436

原创 一统视觉江湖!OpenVision 3发布:一个编码器实现理解与生成完美统一,性能双杀CLIP

是一种先进的视觉编码器,能够学习单 一、统一的视觉表示,同时服务于图像理解和图像生成任务。:核心架构非常简洁,将 VAE 压缩后的图像隐空间变量输入到 ViT 编码器中,并训练其输出以支持两个互补的角色(重建与语义理解)。:通过在共享隐空间中联合优化重建驱动和语义驱动的信号,编码器学习到的表示在两种机制下都能很好地协同和泛化。图1。OpenVision 3架构设计和性能亮点概述。左侧面板:OpenVision 3的架构。我们采用冻结的VAE和可训练的ViT作为统一分词器,生成同时输入生成和理解分支的令牌。

2026-01-26 23:24:14 885

原创 告别时空崩坏,生成式游戏迎来“稳态”时刻!南大等StableWorld:打造无限续航虚拟世界

解决的问题当前交互式视频生成模型(如世界模型)在生成长时间序列时,存在严重的稳定性不足与时间不一致性问题,表现为空间漂移和场景崩塌。即使在没有交互或静态场景下,模型也会因误差累积导致生成帧逐渐偏离初始状态,破坏时间一致性。提出的方案提出框架,其核心是动态帧淘汰机制。在滑动窗口生成过程中,动态评估并保留几何一致性的关键帧(尤其是早期较“干净”的帧),淘汰退化或冗余的中间帧,从而从源头抑制误差累积。应用的技术使用算法计算视角重叠度,以评估帧间几何一致性。采用KV-cache 窗口扩展。

2026-01-26 23:19:41 900

原创 强势斩获6项SOTA!UniCorn打通理解与生成任督二脉,靠“内省”重构多模态认知

本文提出UniCorn,一种自监督框架,用于解决统一多模态模型(UMMs)中“理解能力强但生成能力弱”的“传导性失语症”问题。UniCorn通过多角色自我博弈(提议者、求解者、裁判)生成高质量数据,并结合认知模式重构(描述、判断、反思)实现自我提升,无需外部监督。实验表明,UniCorn在TIIF(73.8)、DPG(86.8)等基准上达到SOTA性能,并在新提出的UniCycle基准(T2I2T循环一致性)上验证了多模态智能的协同性。该方法仅需5k自生成数据即超越依赖30k GPT-4蒸馏数据的模型.

2026-01-12 23:14:55 904

原创 国产多模态搜索史诗级突破!Qwen3-VL登顶MMEB:支持30+语言,一套模型搞定图文视频

Qwen团队推出基于Qwen3-VL基础模型的多模态检索系统,包含Qwen3-VL-Embedding和Qwen3-VL-Reranker两个系列。该系统通过统一框架将文本、图像、文档和视频映射到公共表示空间,在MMEB-V2基准测试中以77.8分排名第一。创新点包括:采用多阶段训练策略(预训练-微调-蒸馏)、自动化合成3亿条多模态数据、困难负样本挖掘技术,以及支持俄罗斯套娃表示学习和量化技术。实验表明,8B版本模型在保持纯文本能力(MTEB得分67.9)的同时,显著提升了多模态检索性能。

2026-01-12 23:05:22 866

原创 AI自己当导演?KlingAvatar 2.0“联合推理”黑科技:让数字人不仅会演,更懂剧本!新SOTA!

《KlingAvatar2.0:多模态协同推理的数字人生成框架》提出了一种创新的时空级联架构,通过多专家协同导演实现高分辨率、长时长数字人视频合成。该系统采用两阶段生成流程:首先生成低分辨率全局"蓝图",再通过时空上采样细化高分辨率子片段。创新性地引入音频/视觉/文本三位专家组成的协同推理导演模块,通过多轮对话解决多模态指令冲突,并新增"负面导演"优化生成质量。

2026-01-08 19:20:52 485

原创 一个人就是一支整编剧组!首个“统一导演”模型发布:字节UniMAGE,让脑洞原地变大片

UniMAGE:统一导演模型实现连贯音视频生成 摘要:本文提出UniMAGE,一个创新的统一导演模型,通过整合剧本创作与关键帧生成来解决现有AI视频创作系统叙事断裂的问题。该模型采用混合Transformer架构,创新性地设计了"先交错后解耦"的双阶段训练范式:交错概念学习阶段促进文本-图像的深度理解,解耦专家学习阶段则分离剧本与图像生成以增强灵活性。

2026-01-08 19:14:18 555

原创 英伟达甩出“核弹级”Nemotron 3全家桶!Mamba+MoE架构:百万上下文+极致性价比

推出了 Nemotron 3 系列模型(Nano, Super, Ultra),该系列模型完全开源(包括权重、数据和训练配方)。: 采用了混合 Mamba-Transformer 的专家混合(MoE)架构,实现了极致的推理效率和吞吐量。: 支持高达 1M token 的上下文长度,且在长序列推理中表现优异。: Super 和 Ultra 模型引入了 LatentMoE 和 NVFP4 训练,进一步优化了精度与效率的平衡。

2026-01-07 12:59:20 768

原创 全栈视觉生成器杀到!上交&快手&南洋理工最新VINO:图像视频生成+编辑一网打尽

VINO提出了一种统一视觉生成框架,将图像/视频生成与编辑任务整合到单一模型中。通过耦合视觉-语言模型与多模态扩散Transformer,实现了对文本、图像和视频信号的一致处理。创新点包括:1)Token边界机制,重用VLM特殊Token标记VAE隐变量边界;2)渐进式训练策略,分阶段扩展模型能力;3)交错全模态上下文处理。实验表明,VINO在保持基础生成能力的同时,显著提升了多任务处理性能,为通用多模态生成系统奠定了基础。主要局限涉及文本渲染能力和计算成本问题。

2026-01-07 12:52:37 572

原创 北交&字节最新开源ThinkGen:首次显式利用多模态CoT处理生成任务,多项任务性能SOTA

摘要:ThinkGen首次提出思考驱动的视觉生成框架,通过解耦MLLM和DiT架构实现高级推理与高质量图像生成的协同。创新性引入VGI-refine模块消除冗余信息,并提出SepGRPO交替训练策略优化模型对齐。实验表明,该框架在WISEBench等基准测试中性能提升显著(如推理生成任务提升21%),在文本渲染、图像编辑等任务均达到SOTA水平。消融研究验证了各模块的有效性,特别是预填充状态对短提示任务的改进作用。该工作为构建智能通用生成模型提供了新思路。

2026-01-06 13:34:01 928

原创 复刻“黑客帝国”子弹时间!SpaceTimePilot:视频变可操控4D游戏,倒放/变速/运镜随你掌控

SpaceTimePilot:首个实现动态场景时空联合控制的视频扩散模型 本文提出了SpaceTimePilot,这是首个能够从单目视频实现对动态场景进行联合空间(摄像机视角)和时间(运动序列)控制的视频扩散模型。主要创新包括:1)引入动画时间嵌入机制,通过1D卷积层将时间控制参数编码注入模型,实现慢动作、反向播放等精细时间控制;2)设计时间扭曲训练方案,增强现有数据集以模拟多样化时间差异;3)构建Cam×Time合成数据集,提供密集时空采样监督;4)改进摄像机条件机制,支持任意初始姿态控制。

2026-01-06 13:22:55 948

原创 超越Wan-2.1 和 MatrixGame!Yume1.5:交互式世界生成模型,单卡12 FPS 实时交互渲染

Yume1.5:交互式世界生成模型的突破性进展 摘要: 本研究提出Yume1.5,一个创新的交互式世界生成模型,通过三大核心技术突破解决了动态世界生成的挑战:1)联合时空通道建模(TSCM)方法实现高效长视频生成,保持时间连贯性;2)结合Self-Forcing与TSCM的加速框架,显著提升推理速度;3)创新的双流文本编码方案,实现精细的文本控制。实验表明,模型在Yume-Bench基准测试中指令跟随能力达0.836,在A100 GPU上实现12FPS的540p分辨率生成,且长序列生成质量稳定。

2026-01-05 13:29:36 1031

原创 港中文&字节联合推出DreamOmni3:解锁“涂鸦+图文”联合输入,重新定义多模态生成与编辑

《DreamOmni3:基于涂鸦的多模态图像编辑与生成框架》提出了一种创新性解决方案,通过整合文本、图像和涂鸦指令,显著提升了图像编辑的交互灵活性与精确度。研究定义了两类新任务(基于涂鸦的编辑与生成),并构建了包含10万+样本的高质量数据集。核心创新在于联合输入方案设计,通过共享索引与位置编码实现涂鸦区域的精准定位,避免了传统二值掩码的局限性。实验表明,该框架在人工评估中优于GPT-4o等主流模型,尤其在保持编辑一致性和消除涂鸦痕迹方面表现突出。这项工作为多模态图像创作提供了新的研究范式和技术基准。

2026-01-05 13:24:39 782

原创 口型匹配、身份保持全面SOTA!清华&可灵X-Dub:抛弃修复思维,用“编辑”实现精准同步!

本文提出X-Dub框架,将视觉配音从掩码修复任务重构为条件良好的视频到视频编辑任务。通过基于DiT的生成器创建嘴型变化的对齐视频对作为训练数据,使编辑器能在完整视觉上下文中学习配音。创新性地采用时间步自适应多阶段学习策略,将不同扩散阶段与结构、嘴部运动和纹理细节学习目标对齐。实验表明,X-Dub在HDTF和新基准ContextDubBench上均达到SOTA性能,在遮挡、动态光照等复杂场景中展现出卓越的鲁棒性,显著优于现有方法。该工作为缺乏成对数据的条件视频编辑任务提供了新思路。

2026-01-04 13:30:32 622

原创 首个亚秒启动的14B“数字人”开源!效率飙23倍!SoulX-LiveTalk:32FPS让对话丝滑如真人

SoulX-LiveTalk提出了一种14B参数的实时音频驱动虚拟形象框架,通过创新的双向蒸馏策略和全栈优化实现高效生成。该框架摒弃传统单向范式,采用双向注意力机制增强运动连贯性,结合多步自校正机制防止长周期误差累积。通过混合序列并行、并行VAE等优化技术,系统在8个H800节点上实现0.87秒启动延迟和32FPS吞吐量。实验表明,该框架在视觉质量、唇音同步和长期稳定性上均优于现有方法,训练效率提升23倍。未来将探索模型轻量化以降低硬件需求。

2026-01-04 13:24:05 632

原创 顶刊TPAMI!字节联合中科大重磅打造文本到图像定制化生成新范式!

论文链接:https://ieeexplore.ieee.org/abstract/document/11206511代码链接:https://github.com/bytedance/RealCustom项目链接:https://corleone-huang.github.io/RealCustom_plus_plus/突破传统方法存在的主体一致性和文本可控性之间的权衡取舍问题,创新性地将参考图主体表征为真实文本单词,通过解耦文本和参考图的影响区域,同时实现高度主体一致性和文本可控性;

2025-12-24 23:36:20 342

原创 5万吊打百万级SOTA!UTS新作VideoCoF:首创“帧链思维”统一视频编辑模型,效果惊艳!

精度与统一性的两难困境:现有的专家模型依赖掩码,精度高但模型无法统一;而统一的上下文模型虽然架构简洁,但缺乏显式的空间提示,导致指令与区域映射微弱,定位不准。长视频外推能力缺失:现有模型通常难以处理超出训练时长的视频,简单的时序拼接会导致位置编码失效,产生运动错位或伪影。VideoCoF 的提出,打破了视频编辑领域长期存在的“精度 vs 统一性”僵局。通过引入帧链的推理机制(Chain-of-Frames),VideoCoF 证明了让模型先“看懂”再“动手”是提升编辑质量的关键。

2025-12-24 23:30:01 552

原创 大幅超越π0.5和X-VLA!清北最新Motus:理解、生成、控制全能, 海量视频喂出“最强大脑”

提出了 Motus,这是一个统一的具身基础模型,首次在一个生成式框架内集成了五种主流范式(世界模型 WMs、逆动力学模型 IDMs、视觉-语言-动作模型 VLAs、视频生成模型 VGMs 以及 视频-动作联合预测模型),且未牺牲通用的多模态先验。:引入了混合 Transformer (Mixture-of-Transformer, MoT) 架构,通过“三模态联合注意力机制”连接预训练的视频生成专家、动作专家和理解专家。

2025-12-23 23:34:59 926

原创 超越Veo和Runway!可灵开源Kling-Omni:一个模型通吃视频生成、剪辑和多模态推理!

当前视频生成、编辑和智能推理任务之间存在功能分离,导致工具碎片化,难以处理多样化的用户输入并实现高级别的感知与创作协同。碎片化的视频生成与编辑方法:现有模型通常专注于特定任务,如文本/图像到视频合成,且依赖静态文本编码器,难以捕捉复杂视觉细节。视频编辑和理解也常依赖独立的、任务特定的管道或外部适配器,造成集成和扩展困难。交互范式的限制:仅依赖自然语言提示难以捕捉视觉想象的细微之处,文本在描述精确空间关系、视觉参考和时间动态方面存在固有局限,导致用户意图与模型输出之间存在差距。模型智能不足。

2025-12-23 23:29:43 1484

原创 加速近200倍!RTX 5090生成高质量视频只要1.9秒!清华&生数等重磅开源TurboDiffusion

文章链接:https://arxiv.org/pdf/2512.16093代码链接: https://github.com/thu-ml/TurboDiffusion提出了一种端到端的视频生成加速框架,在保持视频质量的同时,将扩散模型的生成速度提升了。单张 RTX 5090 GPU 上,该框架能将原本耗时数分钟甚至数小时的视频生成过程缩短至几秒钟(例如从 184 秒缩短至 1.9 秒),实现了实时级别的视频生成体验。

2025-12-22 21:43:57 841

原创 NanobananaPro/GPT-4o/Sora2/国产模型谁最强?ViStoryBench:全能故事可视化基准首发!

评估对象涵盖开源图像生成(StoryDiffusion, OmniGen2)、商业闭源模型(MOKI, Doubao, MorphicStudio)、多模态大模型(GPT-4o, Gemini)及视频生成模型(Sora2, Vlogger),揭示不同技术路线的结构性优势与短板。如果把“故事可视化”理解成一次跨媒介的“编码—传输—解码”:文本剧本(编码)→ 模型生成图像/分镜(传输)→ 观众在多镜头中读出人物与情节(解码)。这相当于把“叙事传播”拆成可标注、可复核的单位,让评测不再停留在“感觉像不像”。

2025-12-22 21:37:38 923

原创 ICCV`25 | 视频交互“随心所欲”!复旦&通义万相等开源DreamRelation:让想象力从此无边界

项目链接:https://dreamrelation.github.io/文章链接:https://openaccess.thecvf.com/content/ICCV2025/papers/Wei_DreamRelation_Relation-Centric_Video_Customization_ICCV_2025_paper.pdf开源链接:https://github.com/ali-vilab/DreamRelation。

2025-12-18 13:37:45 712

原创 彻底告别VAE!清华x可灵联手开源SVG-T2I:生成理解合二为一,性能媲美SD3

核心挑战:视觉基础模型虽然在理解与感知上表现出色,但其表征空间尚未被充分用于大规模、高质量的视觉生成。研究空白:在VFM特征空间内端到端地训练大规模文本到图像生成模型是一个未经充分探索的领域,缺乏相关验证和可行的方案。

2025-12-18 07:48:18 839

原创 直播革命来了!StreamDiffusionV2:140亿参数实时视频飙上58FPS!伯克利&韩松团队等

弥合了离线视频扩散与受实时SLO约束的直播流媒体之间的差距。本免训练系统将SLO-aware批处理/块调度器与sink-token引导的滚动KV缓存、运动感知噪声控制器以及pipeline编排相结合,后者通过并行去噪步骤和模型层实现近线性FPS扩展,而不违反延迟要求。它在异构GPU上运行,支持灵活步骤计数,实现0.5 s TTFF,并在4×H100上达到58.28 FPS(14B)/ 64.52 FPS(1.3B),即使步骤增加也能维持高FPS。

2025-12-17 07:56:12 520

原创 多任务多模态全统一!港科大&快手可灵等最新UnityVideo:生成、理解、控制多项SOTA!

UnityVideo,这是一个在单一 Diffusion Transformer 中对多种视觉模态和任务进行建模的统一框架。通过利用模态自适应学习,UnityVideo 实现了 RGB 视频与辅助模态(深度、光流、分割、骨骼和 DensePose)之间的双向学习,从而在两类任务上都实现了相互增强。本文的实验展示了其在不同基准上的最先进性能,以及对未见模态组合的强大零样本泛化能力。

2025-12-17 07:51:21 475

原创 Open-Sora-Plan团队最新力作UniWorld-V2:图像编辑涨点神器,旧模型也能秒变SoTA!

解决的问题:当前基于指令的图像编辑模型通常依赖于监督微调训练,这导致模型在标注模式上过拟合,限制了它们在训练分布之外的探索和泛化能力。此外,编辑指令和任务的多样性使得缺乏通用的奖励模型。提出的方案:引入Edit-R1框架,该框架基于策略优化,结合了扩散负面感知微调(DiffusionNFT)和多模态大语言模型(MLLM),以提供免训练的奖励机制,帮助解决模型在不同指令环境下的泛化问题。应用的技术。

2025-12-16 13:56:35 743

原创 视频模型降维打击?浙大&哈佛提出 IF-Edit:无需训练,用“生成视频”的思路修图!

IF-Edit 给我们提供了一个全新的视角:图像编辑不仅仅是 Image-to-Image 的翻译,更可以是 Image-to-Video-to-Image 的世界模拟。通过复用强大的视频生成模型,我们无需收集昂贵的成对编辑数据,就能实现懂物理、懂因果的 Zero-Shot 图像编辑。随着视频模型(如 Sora, Wan, HunyuanVideo)的不断进化,这种“降维打击”式的修图方法或许会成为未来的主流。

2025-12-16 13:52:48 904

原创 铁钉水上漂、子弹穿苹果不炸?Nano-Banana等17款SOTA模型颤抖迎物理逻辑推理大考!

核心能力缺失:当前文生图模型缺乏对隐含世界知识和物理因果推理的理解。它们能生成逼真且符合指令的图像,但在需要常识和逻辑推理的提示词上经常失败。评估体系不完善:现有的评估方法要么侧重于组合对齐(即图像是否包含提示词中提到的元素),要么依赖单轮视觉问答进行打分。这导致对知识基础、多物理交互和可审计的证据等关键维度的测试严重不足。评估方法不可靠:依赖多模态大语言模型进行整体评判的现有方法存在幻觉(看到不存在的东西)、中心倾向偏差(打分趋于中庸)等问题,无法进行精细、可靠的评估。

2025-12-15 23:15:58 718

原创 NeurIPS 2025 | 硬刚可灵1.5!阿里通义&清华等开源Wan-Move:指哪动哪的“神笔马良”

Wan-Move,一个用于视频生成中精确的运动控制的简单且可扩展的框架。通过点轨迹表示运动,并通过空间映射将其传输到潜在坐标,无需额外的运动编码器。通过隐空间特征复制将轨迹引导注入第一帧条件特征,在不改变架构的情况下实现了有效的运动控制。

2025-12-15 23:09:53 1211

原创 仅用1张图1小时,比肩FLUX.1和Qwen,推理狂飙5倍!Glance用“快慢哲学”颠覆扩散模型!

Glance框架采用轻量级蒸馏架构,通过相位感知的"慢-快"设计加速扩散模型推理。研究发现,LoRA适配器能够有效区分去噪过程的不同阶段,从而高效捕捉全局语义与局部细节。该框架仅需八步即可实现高质量图像生成,相比基础模型获得5倍加速。尽管仅使用单张图像和数小时GPU训练,Glance仍能保持相当的视觉保真度,并对未见提示词展现出强大泛化能力。

2025-12-12 07:30:07 809

原创 1步顶100步!TwinFlow:无需教师模型,仅单步推理,Qwen-Image-20B生成速度涨100倍!

TWINFLOW,一个用于训练大型少步连续生成模型的简单而有效的框架。消除了对 GAN 判别器或冻结教师模型等辅助训练组件的需求。允许对大模型进行直接的 1 步或少步训练,使其特别易于访问和高效。通过在不同规模和任务上进行的大量实验,证明了 TWINFLOW 在大模型上的文本到图像合成中提供了高质量的生成能力。

2025-12-12 07:26:01 876

原创 北航&美团等最新EditThinker:给AI修图装上“大脑”,Flux、OmniGen2瞬间智商暴涨!

EditThinker,使图像编辑模型能够在编辑时“思考”,解决了现有单轮方法中由于固有的随机性和缺乏深思熟虑而导致的指令遵循能力有限的问题。本文的框架通过模拟迭代的“批判-改进-重复”循环来模仿人类的认知过程,从而实现自我纠正的图像编辑。通过将 EditThinker 训练为一个统一的多模态大语言模型 (MLLM),它能够联合生成批判分数、详细推理过程和改进后的指令。

2025-12-11 07:17:32 872

原创 原生多模态统一架构比不过单模态专家模型?华为团队出品的EMMA “Say No”

华为发布EMMA,通过高效的编码器设计融合策略和网络结构语义共享及高层任务解耦机制,能够高效地完成原生多模态统一架构训练,最终配合上高质量的数据工程和训练方案EMMA能够在多模态理解、生成及编辑等榜单上大幅超过BAGEL。

2025-12-11 07:12:31 630

原创 ICCV 2025 | 北大王选所推出AnyPortal:像素级操控视频背景,前景细节100%保留!

核心挑战:现有视频生成技术难以实现精细化的细节控制,无法精确对齐用户意图,特别是在视频背景替换任务中。具体问题前景一致性:替换背景时,难以保持前景主体(如人物、物体)的像素级细节和外观一致性,容易出现非预期的改变。时序照明一致性:难以在视频序列中保持照明效果的时序连贯性。资源限制:专业绿幕流程成本高昂;基于数据驱动的视频方法缺乏高质量的配对视频数据集,且模型训练需要巨大的计算资源。

2025-12-04 13:08:48 1050

原创 港科大等提出音频驱动多人视频生成新范式 AnyTalker,解锁任意数量角色间的自然互动!

本文介绍了AnyTalker框架,用于生成自然的多人说话视频。该框架引入了可扩展的音频-人脸交叉注意力结构,支持任意数量角色的驱动,并通过创新的两阶段训练方法(先利用单人数据模拟多人说话,再微调增强互动)显著降低了多人生成模型的训练成本。此外,文章首创了基于眼部动作的交互性定量评估指标及其配套数据集。实验表明,AnyTalker在口型同步、视频质量和角色间互动自然度上均优于现有方法。

2025-12-04 13:01:25 1033

原创 南洋理工&腾讯最新Rolling Forcing解决流视频生成长期误差累积,连贯如一且长达数分钟!

《RollingForcing:实时自回归长视频扩散技术》提出了一种创新框架,通过滚动窗口联合去噪技术和注意力汇机制,实现了单个GPU上16fps的实时长视频生成。该技术突破性地解决了传统流视频生成中的误差累积问题,能在数分钟时长的视频中保持高质量和一致性。通过双向注意力优化和全局上下文锚定,系统显著降低了长期质量漂移,同时采用高效训练算法减轻曝光偏差。实验表明,该方法在视觉保真度、时间一致性和实时性能上均优于现有技术,为长视频流媒体应用提供了实用解决方案。

2025-12-03 13:51:11 655

原创 多模态理解生成“大一统”!Meta&港大等重磅发布Tuna:统一视觉表征,性能碾压Show-o2

Tuna是一个创新的统一多模态模型,通过独特的统一视觉表示设计,在一个框架内实现了图像/视频理解、生成和编辑功能。该模型将VAE编码器与表示编码器直接连接,形成兼顾语义理解和细节生成的统一表示空间。实验表明,Tuna在多个基准测试中达到SOTA水平,性能优于现有解耦模型和统一模型。消融研究验证了其统一表示设计的优越性,证明了理解和生成任务间的协同效应。Tuna的成功为开发更高效的多模态AI系统提供了新思路。

2025-12-03 13:41:34 700

原创 破解长视频理解困局!MIT&英伟达最新开源StreamingVLM:统一实时流式视觉语言理解框架

StreamingVLM提出了一种统一的流式视觉语言模型框架,通过创新的训练-推理对齐机制解决长视频处理难题。核心贡献包括:1)采用重叠窗口全注意力训练策略,使短视频训练自然适配无限长度推理;2)设计分层KV缓存机制(注意力汇聚+非对称视觉/文本窗口),在单卡H100上实现8FPS稳定流式推理;3)构建首个超2小时的长时视频评测基准Inf-Streams。实验表明,该方法在解说质量上超越GPT-4omini 66.18%胜率,并在VQA任务中提升5.96%准确率,为实时视频理解提供了实用解决方案。

2025-12-02 13:43:11 1088

原创 《黑客帝国》雏形已现?腾讯造出“可对话游戏宇宙”,实时生成、任意交互,世界为你改变!

Hunyuan-GameCraft-2提出了一种指令驱动的交互式游戏世界模型,通过集成文本、键盘和鼠标信号实现语义化交互控制。该模型采用14B参数的MoE架构,结合自回归蒸馏与随机化长视频微调技术,支持高效稳定的长时序视频生成。创新性地定义了交互式视频数据标准,并开发了自动化数据构建管道。实验表明,模型在InterBench基准上取得SOTA性能,能以16FPS实时生成高质量交互视频,显著提升了动作有效性(触发率0.96+)、因果连贯性和物理合理性。

2025-12-02 13:34:31 660

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除