- 博客(285)
- 收藏
- 关注
原创 颠覆影视圈!全球首个开源「无限时长」电影生成模型炸场:昆仑万维把视频生成卷到新时代
Prompt Adherence(提示词遵循):现有通用多模态大语言模型(MLLM)难以理解电影语法(如镜头构图、演员表情、摄像机运动),导致生成的视频不符合专业电影风格。Motion Dynamics(运动动态):现有方法在优化时往往牺牲运动质量以提升视觉质量,导致动态效果不足。Video Duration(视频时长):现有模型受限于分辨率优化,通常只能生成5-10秒的短视频,难以实现长视频合成。Training Stability(训练稳定性)
2025-04-24 22:32:13
938
原创 只需一张图,万物皆可插!Insert Anything开源啦!开创AI图像插入新时代|浙大&哈佛等
任务局限性:现有方法仅针对特定任务(如人物插入、服装插入),缺乏通用性。控制模式单一:依赖固定控制方式(仅掩码或仅文本引导),灵活性不足。视觉-参考不协调:插入内容与目标场景风格不一致,或丢失参考图像的细节特征。
2025-04-24 22:24:09
558
原创 45倍加速+最新SOTA!VAE与扩散模型迎来端到端联合训练:REPA-E让VAE自我进化!
现有隐空间扩散模型(LDM)采用两阶段训练(先训练VAE,再固定VAE训练扩散模型),导致两个阶段的优化目标不一致,限制了生成性能。直接端到端联合训练VAE和扩散模型时,传统扩散损失(Diffusion Loss)失效,甚至导致性能下降。
2025-04-23 08:01:51
922
原创 让数字人视频告别“恐怖谷“!字节团队最新DreamActor-M1实现人类表情动作像素级操控
最近的基于图像的人像动画方法在逼真的身体和面部动作合成方面取得了一定进展,但在细粒度整体可控性、多尺度适应性和长期时间一致性上仍存在不足,导致表现力和鲁棒性较低。
2025-04-23 07:58:28
884
原创 AI镜头控制黑科技喜提多项SOTA!浙大&上交等发布统一多模态视频生成框架OmniCam
单图像输入无法实现相机控制基于视频生成的方法难以区分相机角度变化与主体运动。基于重建的方法通常需要多视角信息。现有方法在连续复杂操作中难以保持空间结构,导致失真。缺乏通用数据集:现有数据集(如RealEstate)缺乏多模态支持与多样化轨迹控制。交互成本高且模态受限:现有方法仅支持有限输入模态(如单一文本或视频),且控制能力不足(如长序列、复合运动)。首个多模态相机控制框架:统一文本、视频、图像输入,解决模态割裂问题。OmniTr数据集:填补多模态长序列轨迹数据的空白。6DoF长序列控制。
2025-04-13 10:13:45
997
原创 突破传统“非此即彼”,真灵魂P图!腾讯最新FlexIP黑科技:身份保持和个性化我都要!
身份保持与编辑灵活性的固有矛盾:现有方法在生成模型中难以同时实现高保真身份保持和多样化个性化编辑,通常需要在两者之间做出权衡。跨模态对齐不足:传统零样本方法依赖视觉-语言对齐模块(如Q-former),导致图像生成任务中视觉与文本信息未能有效协同,影响身份保持和编辑效果。控制粒度不足:现有方法通过单一参数调整身份保持强度时,往往产生突变效果,缺乏连续、精细的控制能力。
2025-04-13 10:10:24
732
原创 炸裂!昆仑万维开源「元素级视频生成」神器SkyReels-A2!效果吊打闭源商业模型!
元素保真问题:现有视频生成模型难以在生成过程中严格保持多参考元素(如角色、物体、背景)的外观一致性。场景协调性:需解决多元素组合时的全局协调性(如自然交互、合理构图),避免生成内容割裂或失真。输出自然性:传统方法(如I2V)易依赖初始帧的“复制粘贴”,导致动态效果生硬;T2V则因随机性难以控制具体元素。缺乏评估基准:当前缺少针对多元素视频生成(E2V)任务的系统化评估标准。
2025-04-12 09:02:39
593
原创 图像编辑进入“精修时代”!“指哪改哪”!北交&美图发布DCEdit:改图不伤背景的终极方案
文本引导图像编辑任务面临的关键挑战是精确定位和编辑目标语义,而以往的方法在这方面存在不足。
2025-04-12 08:57:27
912
原创 单一模型统一多图个性化生成!字节重磅开源UNO, FLUX版训练、推理、权重全开源!
字节开源UNO,渐进式数据生成框架和通用定制化模型,实现了从单主体到多主体的高质量图像生成。在多个任务中取得了卓越的性能,包括单主体和多主体驱动的图像生成,并且能泛化到身份保持,换装,风格化等场景。
2025-04-11 23:33:08
1109
原创 一张照片,开口说话!阿里等最新音视频对齐技术FantasyTalking:打造超写实可控数字人!
阿里等发布FantasyTalking,通过单张照片+音频,实现与输入音频对应的、包含背景和上下文对象(而不仅限于肖像本身)的连贯全局运动,并能够构建精确对齐的唇部运动视频。
2025-04-11 23:26:45
859
原创 业界首款多实例智能线稿上色系统来啦!港科大提出MagicColor:零基础也能产出专业级彩色漫画!
多实例线稿上色的效率与准确性:传统的手工上色方法需要艺术家逐个实例上色,效率低下且容易出错。训练数据不足:现有的生成方法由于缺乏多实例配对数据,难以有效解决多实例上色任务。实例级控制与颜色一致性:现有方法在实例级控制上表现不佳,容易导致颜色失真和细节丢失,且难以保持颜色一致性。
2025-03-29 23:21:08
738
原创 单图秒变好莱坞级运镜!MagicMotion实现多物体丝滑运动,复杂场景帧级精准对齐(复旦&微软)
复杂对象运动和多对象运动控制的困难:现有方法在处理复杂对象运动和多对象运动控制时,存在轨迹遵循不精确、对象一致性差和视觉质量下降的问题。单一轨迹控制格式的限制:现有方法仅支持单一格式的轨迹控制,限制了其在不同场景中的适用性。缺乏专门的数据集和基准:目前没有公开的大规模数据集或基准专门用于轨迹可控视频生成,阻碍了鲁棒训练和系统评估。本文的工作主要集中在轨迹可控的视频生成上。给定输入图像 和多个轨迹图 ,模型可以生成符合提供轨迹的视频 ,其中 表示生成视频的长度。本节首先详细解释本文的模型架构。
2025-03-29 23:17:34
948
原创 FLUX秒变高玩!DreamRenderer无需训练一键解决AI绘图『多物乱窜』难题(浙大&哈佛)
多实例内容控制不准确:现有图像生成模型(如FLUX和3DIS)在控制多个实例(或区域)的内容时存在困难,容易出现属性泄漏问题,导致用户无法精确控制每个实例的视觉属性。文本嵌入与视觉信息绑定不准确:现有的文本到图像模型(如T5文本编码器)仅基于文本数据进行预训练,缺乏视觉信息,导致在多实例控制场景下,文本嵌入容易与错误的视觉属性绑定。图像质量与控制的平衡:在联合注意力机制中,过度限制图像标记的注意力范围会导致图像质量下降,而过于宽松的控制则无法保证每个实例的视觉属性准确生成。下图 2 展示了的概览。
2025-03-25 23:04:35
1288
原创 性能狂飙89%! 新加坡国立开源Conceptrol:让个性化图像生成更懂你的文字提示
个性化图像生成中的平衡问题:现有的zero-shot adapters方法(如IP-Adapter和OminiControl)在生成个性化图像时,难以平衡保留参考图像内容和遵循文本提示的要求。生成的图像往往只是复制个性化内容,而不是根据文本提示进行调整。设计缺陷:现有的adapters在将个性化图像与文本描述结合时存在设计缺陷,导致生成的图像无法充分利用基础文本到图像扩散模型的概念理解能力。
2025-03-25 23:01:22
893
原创 让创意起飞!用户可控的电影级图像到视频生成方法!港中文&Adobe发布MotionCanvas
如何在图像到视频生成系统中实现直观的电影镜头设计。如何有效捕捉用户在运动设计上的意图,包括相机运动和场景空间对象运动。如何表示运动信息,使其能够被视频扩散模型有效利用,以合成图像动画。
2025-03-17 20:52:17
682
原创 通向AGI的未来之路!首篇2D/视频/3D/4D统一生成框架全景综述(港科大&中山等)
理解并复现现实世界是人工通用智能(AGI)研究中的一个关键挑战。为实现这一目标,许多现有方法(例如世界模型)旨在捕捉支配物理世界的基本原理,从而实现更精确的模拟和有意义的交互。然而,当前的方法通常将不同模态(包括2D(图像)、视频、3D和4D表示)视为独立领域,忽略了它们之间的相互依赖性。此外,这些方法通常专注于现实的孤立维度,而没有系统地整合它们之间的联系。在本综述中,我们提出了一种多模态生成模型的统一综述,探讨了现实世界模拟中数据维度的演进。
2025-03-17 20:45:27
1353
原创 人形机器人全能运动新突破:HUGWBC实现多模态步态精细调控与实时操控(上交&上海AI lab)
当前的人形机器人行走系统单一、被动,缺乏可扩展性,难以实现如人类般的多样化运动(如奔跑、跳跃、单脚跳等),也无法对步态参数(步频、步幅、脚摆高度等)进行细粒度调整。此外,现有方法在执行运动任务时,缺乏对上半身控制的实时干预能力,限制了机器人在复杂任务中的适应性和灵活性。
2025-03-13 15:40:17
906
原创 即插即用!腾讯&港中文发布影视后期黑科技!VideoPainter:视频编辑修复8项SOTA!
生成完全遮挡目标:现有方法在处理完全遮挡的目标时存在困难。背景保留与前景生成的平衡:现有方法难以在保留背景的同时生成前景。长视频中的ID一致性:现有方法在长视频中难以保持目标ID的一致性。
2025-03-13 15:36:48
589
原创 他们吃的那么香,我都看饿了!港大&字节发布领先商用级图像视频生成模型Goku有点东西
现有的图像与视频生成模型在质量、一致性和计算效率方面仍存在不足。需要构建大规模、高质量的数据集,以支持高性能生成模型的训练。现有的生成架构未能充分统一图像和视频的表示,影响跨模态生成效果。训练大规模生成模型的计算成本高,需优化并行计算与存储机制。
2025-03-11 05:45:43
742
原创 破解LoRA融合密码!无需训练夺得SOTA!K-LoRA巧用Top-K策略,让风格与主体完美融合
风格与内容的同时保留:现有方法在融合不同LoRA(Low-Rank Adaptation)时,难以同时有效保留原始图像的主体内容和风格细节。额外训练需求:现有方法通常需要手动调整超参数或进行额外的训练,增加了复杂性和计算成本。
2025-03-11 05:41:55
1038
原创 颠覆认知!多模态模型思维链评估白皮书:反思机制成胜负手,感知任务竟被CoT拖后腿
论文:https://arxiv.org/pdf/2502.09621主页:https://mmecot.github.io代码:https://github.com/CaraJ7/MME-CoT数据集:https://huggingface.co/datasets/CaraJ/MME-CoT亮点直击精心策划了 MME-CoT 基准,涵盖了六种多模态推理场景的综合范围。数据收集和注释过程经过严格的人为验证,旨在为社区提供高质量的多模态推理评估数据集。
2025-03-10 07:40:44
744
原创 CVPR 2025 | 数据荒漠终结者!DoraCycle跨模态自循环算法:让生成不再依赖配对数据
复杂领域适应性问题:生成模型在适应复杂领域时,通常需要大量成对的文本-图像数据,但这类数据难以获取且成本高昂。无配对数据的利用:现有的生成模型难以有效利用单模态(如视觉或语言)的无配对数据进行领域适应。跨模态对齐的挑战:在无配对数据的情况下,如何实现视觉和语言之间的跨模态对齐,以支持生成模型的领域适应。
2025-03-10 07:37:18
918
原创 自回归模型迎来全能选手!FlexVAR一模型通吃图像生成/修补,推理速度与质量自由调节
本文作者来自北京交通大学、悉尼科技大学、美团、佐治亚理工学院。FlexVAR是一种灵活的视觉自回归图像生成范式,它通过真实值(ground-truth)预测而非残差预测来实现自回归学习,从而能够在任何步骤独立生成合理的图像。在本文的方法中:(1) 一个可扩展的 VQVAE tokenizer 将输入图像量化为多尺度的 token 并重建图像。(2) 一个 FlexVAR transformer 通过尺度自回归建模进行训练,去除了残差预测。
2025-03-06 06:55:15
1397
原创 Hunyuan图生视频发布日期公布:北京时间3月6日16:00
今日,Hunyuan发布了图生视频的发布日期:北京时间3月6日16:00。Hunyuan I2V 是腾讯(Tencent)推出的一款先进的图像到视频生成模型(Image-to-Video Generation Model)。它能够将静态图像转换为动态视频,具有广泛的应用场景,如内容创作、广告制作、影视特效等。二月底,Hunyuan在 Twitter 上发布了一个到的链接,该链接允许首尾帧的 I2V。他们可能只是简单地将这个解决方案集成到本地的Hunyuan中,并且希望对它进行显著的优化。
2025-03-06 06:46:32
419
原创 大语言模型都有哪些特质?区分度达97%!DeepSeek&ChatGPT&Claude&Grok&Gemini
区分不同LLM生成的文本:研究旨在识别和区分不同大型语言模型(LLM)生成的文本,揭示各模型的独特输出模式。理解LLM的独特行为:通过分析LLM生成的文本,探讨这些模型的独特行为及其在语义层面的表现。
2025-03-05 22:41:51
674
原创 一张图生成舞蹈视频!字节等发布黑科技X-Dancer:零样本音乐驱动,真实感碾压3D方案
论文链接:https://arxiv.org/pdf/2502.17414一种基于Transformer-Diffusion的新型音乐到舞蹈人体图像动画方法,在运动多样性、表现力、音乐对齐和视频质量方面达到了最先进的性能。一种跨模态Transformer模型,通过使用带有关键点置信度的全身2D人体姿态的多尺度tokenization方案,捕捉与音乐特征同步的长距离舞蹈动作。一种基于扩散的人体图像动画模型,能够解释时间姿态tokens并将其转化为一致的高分辨率视频输出。
2025-03-05 22:36:52
729
原创 CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出“时空大脑“
多模态理解与行动的分离:现有的视觉-语言-行动(VLA)模型通常在特定任务上表现良好,但在跨任务和跨领域的泛化能力上表现有限。这些模型往往在特定任务上学习行动策略,而牺牲了通用的多模态理解能力。环境差异带来的挑战:2D数字世界和3D物理世界之间的差异使得VLA模型通常需要分别训练,难以在多个环境中通用。数据集之间的差距:多模态理解(主要是文本描述)与行动任务(主要是空间坐标)之间存在显著差距,导致直接结合数据集难以提升模型性能。一个通用的多模态AI智能体应同时具备多模态理解和行动执行的能力。
2025-03-04 07:52:48
981
原创 告别800秒魔咒!硬件级STA革新视频DiT注意力,让HunyuanVideo效率提升3.5倍!
视频链接:https://www.youtube.com/watch?论文链接:https://arxiv.org/pdf/2502.04507Git链接:https://github.com/hao-ai-lab/FastVideo识别并量化了最先进的视频 DiT 中的 3D 局部性和头部 specialization,揭示了完整 3D 注意力中的大量冗余。引入了,一种基于分块的滑动窗口注意力机制。优化内核与 FlashAttention 3 相比实现了最小的开销,MFU 达到 58.79%。
2025-03-03 07:50:36
1009
原创 CVPR 2025 | 扩散模型炼出新绝技!注意力蒸馏技术:图像生成效果全面碾压传统方法
现有生成扩散模型在图像风格和语义理解方面虽然有进展,但在将参考图像的视觉特征转移到生成图像中时,使用即插即用注意力特征的方法存在局限性。
2025-03-03 07:42:19
1172
原创 开启AI短剧新纪元!SkyReels-V1/A1双剑合璧!昆仑万维开源首个面向AI短剧的视频生成模型
身份失真:现有方法在动画生成过程中难以保持人物身份的稳定性,导致身份信息泄露或扭曲。背景不稳定:动画生成时背景容易出现抖动或不一致的现象。面部表情不真实:特别是在仅头部动画的场景中,面部表情缺乏真实感。全身动画的挑战:当动画扩展到全身时,现有方法容易产生视觉伪影或不自然的动作。身份与运动融合的困难:现有方法难以在保持身份一致性的同时,实现细腻的表情和动作生成。给定输入视频序列和参考肖像图像,从视频中提取表情感知的面部标志点,这些标志点作为运动描述符,用于将表情传递到肖像上。
2025-03-02 20:26:36
1342
原创 MIT何恺明再次突破传统:分形递归架构引爆生成模型新纪元!
复杂生成模型的模块化:现有的生成模型(如扩散模型和自回归模型)虽然已经模块化,但缺乏更高层次的模块化抽象,难以构建更复杂的生成系统。非顺序数据的生成:现有方法在处理像素级图像生成等非顺序数据时表现不佳,尤其是在似然估计和生成质量方面。自然数据的分形特性:自然数据(如图像、蛋白质结构等)通常具有分形或近分形特性,现有生成模型未能充分利用这一特性。
2025-03-02 09:38:43
2275
原创 AI长视频生成终现“免费午餐“!RIFLEx颠覆性发现:调控频率就能突破时长魔咒
生成长视频的挑战:现有的视频生成模型在生成长视频时面临时间一致性差的问题,容易出现时间重复或运动减速的现象。长度外推技术的不足:现有的长度外推方法在应用于视频生成时表现不佳,导致时间重复和运动减速。
2025-03-01 08:24:53
968
原创 ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级
多粒度视频编辑的挑战,特别是文本到区域控制的语义不匹配和扩散模型内部的特征耦合问题。
2025-03-01 08:16:42
1426
原创 MagicArticulate: 超48K海量数据革新3D动画,自回归Transformer驱动关节智能生成!
随着3D内容创作的快速增长,自动将静态3D模型转换为支持真实动画的可关节化版本的需求日益增加。然而,传统方法严重依赖人工标注,既耗时又费力。此外,缺乏大规模的基准数据集也阻碍了基于学习的解决方案的发展。
2025-02-25 22:43:41
1072
原创 直击痛点,新一代身份保持视频生成解决方案!阿里等提出FantasyID:多视角与3D融合!
面部动态表现不足:现有的身份保持文本到视频生成(IPT2V)方法在生成视频时,难以在保持身份一致性的同时,实现满意的面部动态表现。“复制-粘贴”问题:使用单视角参考面部图像进行模型调优时,模型可能会简单地复制参考面部图像,导致生成视频中的面部表情和头部姿势缺乏多样性。层次化控制信号的敏感性:扩散Transformer(DiT)的层次化结构导致不同层对控制信号的敏感性不同,需要专门的调节策略来平衡身份保持和时间一致性。
2025-02-25 22:27:23
1219
原创 开放版Wanx 2.1发布在即:超越Sora,重新定义AI驱动视频生成
她的手臂张开,身体向后倾斜,展现了她的技巧和优雅」。为了最大限度地提升视觉生成质量,Wanx 2.1背后的研究团队在多个技术领域取得了显著进展:首先,通过利用专有的VAE(变分自编码器)和DiT(去噪扩散Transformer)框架,Wanx 2.1在增强时间和空间关系方面表现出色,从而在处理涉及复杂运动场景和物理规则时实现了更高的视觉真实感。此外,Wanx 2.1还实现了一个突破性里程碑,成为首个支持中英文字幕特效的视频生成模型,满足了广告设计和短视频制作等行业多样化的创意需求。
2025-02-24 07:29:42
691
原创 从低清到4K的魔法:FlashVideo突破高分辨率视频生成计算瓶颈(港大&港中文&字节)
现有 DiT 生成的视频模型需要大规模参数和大量计算资源,导致计算成本高昂。生成高质量视频需要高分辨率和大量去噪步骤,进一步增加计算负担。现有的两阶段方法仍然依赖从高斯噪声重建高分辨率视频,计算效率低下。
2025-02-17 22:43:16
1096
1
原创 高分辨率3D人生成超简单!Pippo:Meta最新工作首次完成1K分辨率一致多视角人物图像生成
高质量多视角数据获取成本高:传统方法需要高质量的多视角工作室数据来创建逼真的人体表示,但这些数据获取成本高,限制了可扩展性。野外数据缺乏3D或多视角表示:大规模、非结构化的野外人体图像和视频虽然丰富,但缺乏真实的3D或多视角表示。多视角生成模型的3D一致性问题:现有方法在生成多视角图像时,难以保证3D一致性,且现有评估指标无法准确衡量3D一致性。
2025-02-17 22:37:01
992
原创 多模态大语言模型(MLLMs)如何重塑和变革计算机视觉?
简单来说,多模态大型语言模型(MLLM)是结合了大型语言模型(LLM)(如 GPT-3 [2] 或 LLaMA-3 [3])的推理能力,同时具备接收、理解并输出多种模态信息的能力。图 1 展示了一个医疗领域的多模态 AI 系统 [4]。它接收两个输入:一张医学影像一个文本查询,如:“这张影像中是否存在胸腔积液?该系统输出一个关于该查询的预测答案。在本文中,可能会简化“多模态大型语言模型”这一术语,直接称其为“多模态模型”。
2025-02-16 17:09:27
1495
原创 ICLR 2025 | 计算量仅DiT一半!中山大学&360 AI研究院开源Qihoo-T2X:统一架构搞定T2X任务
论文地址:https://arxiv.org/pdf/2409.04005项目主页:https://360cvgroup.github.io/Qihoo-T2X代码仓库:https://github.com/360CVGroup/Qihoo-T2X:论文一作为来自中山大学的博士生王晶;论文共同一作和项目leader为来自360 AI Research视频生成方向的负责人马傲。
2025-02-16 17:06:36
781
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人