- 博客(322)
- 收藏
- 关注
原创 4分15秒!高质量超长视频生成取得颠覆突破!字节Self-Forcing++超基线50倍,效果炸裂!
Self-Forcing++突破长视频生成瓶颈 摘要:本文提出Self-Forcing++框架,解决了自回归模型在生成长视频时面临的时间性和监督不匹配问题。通过让学生在自身错误累积的长轨迹上进行校正,并利用教师模型的片段指导,该方法实现了三大突破。
2025-10-08 16:00:29
550
原创 世界知识赋能文生图模型!港科大开源World-To-Image:自己上网搜图学习,准确率飙升8%!
本文提出WORLD-TO-IMAGE (W2I)框架,通过代理驱动的世界知识注入解决T2I模型的知识时效性问题。该框架包含协调代理、提示优化代理和图像检索代理,动态结合文本优化与视觉检索来增强语义对齐。在NICE等基准测试中,W2I在保持视觉质量的同时,将提示词准确率提升8.1%,尤其擅长处理新概念和组合性提示。实验表明其多模态优化策略显著优于传统方法,无需修改模型权重即可实现知识更新。
2025-10-08 15:56:14
294
原创 ICCV 2025 | 描述替代指令:南大联合vivo发布DescriptiveEdit,定义语义图像编辑新范式
本文提出DescriptiveEdit框架,创新性地采用描述(description)而非指令(instruction)引导图像编辑。通过AttentionBridge实现参考图控制,结合零初始化线性层自适应融合特征,有效解决传统方法在结构保真与语义编辑间的冲突。实验表明,该方法在EmuEdit测试集上多项指标领先,支持全局/局部编辑,且兼容ControlNet等扩展模型。核心突破在于:1)摆脱指令数据依赖,直接利用T2I模型能力;2)通过双系数调节实现编辑幅度灵活控制;3)保持原始架构兼容性。
2025-09-10 07:50:45
924
原创 视频生成迎来效率革命!字节提出视频生成稀疏注意力机制,计算量降20倍,速度升17.79倍!
BSA框架提出了一种可训练的双向动态稀疏注意力机制,首次在视频扩散训练中对查询(Query)和键值对(Key-Value)进行正交稀疏化处理。该方法设计了不同的动态稀疏策略:针对查询块,基于语义相似度选择关键token;针对键值块,采用统计动态阈值选择关键子集。实验表明,BSA在Wan2.1-1.3B数据集上实现了20倍FLOPs降低、17.7倍训练加速和6倍推理加速,同时保持或超越全注意力机制的生成质量。该框架有效解决了视频DiT模型在高分辨率长视频生成中的计算瓶颈问题。
2025-09-10 07:46:43
652
原创 分钟级长视频生成迎来“记忆革命”,7倍成本降低,2.2倍端到端生成速度提升!|斯坦福&字节
本文提出了一种自适应上下文混合(MoC)框架,通过动态路由机制解决长视频生成中的计算瓶颈问题。MoC将每个查询路由到最相关的视频片段,替代传统稀疏注意力机制,并引入因果路由mask确保交互图的无环性。实验表明,该方法能裁剪85%以上的token对,将注意力计算成本降低7倍,在18万token的分钟级视频生成中实现2.2倍加速,同时保持生成质量。创新性地将长视频生成转化为内部检索任务,首次验证了学习型稀疏路由在实际应用中的有效性。
2025-09-09 07:45:12
892
原创 ICCV`25 | 把DragDiffusion“卷”哭了:速度快600倍,效果更精准!港大开源Inpaint4Drag
摘要: Inpaint4Drag提出了一种基于拖动的图像编辑框架,通过双向扭曲算法和图像修复分离实现高效高精度编辑。该方法将图像区域视为弹性材料,结合前向扭曲(定义初始变形)与后向映射(填补间隙),生成密集像素对应关系,支持实时预览(0.01秒)。用户通过控制点和掩码指定变形区域,可选SAM掩码细化模块提升边界精度。修复阶段兼容任意修复模型(如Stable Diffusion),处理显露区域。实验表明,其在DragBench基准上较现有方法快14-600倍,MD误差降低至3.6,内存占用仅2.7GB。
2025-09-09 07:39:14
1058
原创 让虚拟人秒懂人类情感!多模态DiT架构炸裂升级:字节OmniHuman-1.5让Ta拥有灵魂!
本文提出OmniHuman-1.5,一种基于认知科学双系统理论(系统1反应性思维与系统2审慎思维)的视频虚拟人生成新范式。通过结合多模态大语言模型(MLLM)的高层语义推理(系统2)与多模态Diffusion Transformer(MMDiT)的低层信号融合(系统1),模型实现了动作的物理合理性与语义一致性。创新点包括:1)采用MLLM智能体生成结构化行为计划;2)设计对称多模态分支与伪最后一帧策略解决模态冲突。
2025-09-08 08:00:00
1138
原创 AI试衣间实现360度全身自由!SpreeAI带来VirtualFittingRoom:让自拍秒变沉浸式换装秀
【摘要】VFR框架突破性地实现了从单张图片生成任意时长(720×1152分辨率,24FPS)的高质量虚拟试衣视频,解决了现有技术局限于静态图像或超短视频的痛点。该研究通过自回归分段生成策略,结合"锚视频"全局引导和"前缀条件"局部优化,在保持3D一致性的同时,创新性地实现了分钟级视频的平滑过渡与时间连贯性。实验表明,该方法在四个评估维度(服装/人体一致性、手部交互、任意姿势)上均显著优于基线模型,且支持自由视角渲染。
2025-09-08 07:56:13
1034
原创 让SDXL实现50倍加速!中山&字节最新对抗训练+双空间判别,单步生成新标杆!性能狂飙
【摘要】本文提出对抗分布匹配(ADM)框架,通过扩散判别器在隐空间对齐真实与伪造分数估计,替代传统显式散度度量,有效解决分布匹配蒸馏中的模式崩溃问题。创新性地采用混合判别器对抗蒸馏(ADP)进行预训练,结合ODE轨迹分布损失优化初始化,与ADM微调形成统一流程DMDX。在SDXL上实现50倍加速的一步生成,同时为SD3、CogVideoX等模型设立图像/视频高效生成新基准。实验表明,该方法在保真度、多样性和训练稳定性方面显著优于现有方案,尤其通过三次方时间步调度增强模式覆盖能力。
2025-08-18 11:02:19
980
原创 自回归新王登基!NextStep-1强势登场,图像生成SOTA达成!高保真+强编辑,太能打了!
NextStep-1:连续图像流匹配自回归架构的突破 本文提出NextStep-1,一种创新的自回归模型,通过轻量级流匹配头(157M参数)实现高质量patch-by-patch图像生成,摆脱传统扩散模型依赖。核心创新包括: 统一多模态框架:结合14B参数的自回归主干,同时处理离散文本和连续图像token,避免量化损失。 高维隐空间稳定技术:通过通道归一化与随机扰动tokenizer设计,支持16通道稳定训练,消除伪影。
2025-08-18 10:55:24
660
原创 Lumina-mGPT 2.0横空出世:自回归模型终结扩散时代?媲美DALL·E 3,更自由、更全能!
摘要: Lumina-mGPT2.0提出了一种独立的自回归解码器模型,从零训练实现高质量多模态生成。与依赖预训练或混合架构的现有方法不同,该模型采用纯AR架构,支持图像生成、编辑、可控合成等统一任务。通过SBER-MoVQGAN分词器和多阶段训练策略,生成质量媲美DALL·E3等扩散模型。创新点包括推理时缩放提升质量、猜测式Jacobi采样加速解码,以及GPT-4o辅助的"生成前思考"优化提示。实验显示,其2B/7B版本在GenEval、DPG基准上表现优异,多任务能力超越同类模型。
2025-08-07 22:29:46
490
原创 LongVie突破超长视频生成极限:1分钟电影级丝滑视频,双模态控制告别卡顿退化
本文提出LongVie框架,针对可控长视频生成中的时序不一致性和视觉退化两大挑战进行了创新性解决。通过多模态控制机制(结合稠密深度图与稀疏关键点)、全局归一化和统一噪声初始化,显著提升了生成质量。实验表明,LongVie在1分钟以上视频生成中达到SOTA性能,并构建了包含100个1分钟视频的LongVGenBench评测基准。该工作为超长视频生成提供了新思路和评估标准。
2025-08-07 22:24:05
944
原创 ICCV 2025 | 视频生成迈入“多段一致”新时代!TokensGen用“压缩Token”玩转长视频生成
TokensGen提出创新两阶段框架解决长视频生成难题:1)To2V模型通过视频Tokenizer将短片段压缩为高语义密度Token,实现精细内容控制;2)T2To模型采用扩散Transformer一次性生成长视频Token序列,确保长期一致性。关键技术突破包括自适应FIFO-Diffusion对角去噪策略实现平滑过渡,以及基于PCA的轻量降维保持90%以上压缩率。实验表明,该方法在2分钟视频生成中显著优于主流基线,运动平滑度指标提升20%+,同时支持零拍摄长视频编辑。
2025-08-06 22:27:27
1541
原创 ICCV`25 | 视频魔法再升级!字节新神器VTG:输入首尾图+描述词,瞬间生成超自然丝滑转场
本文提出了一种统一的多功能视频过渡生成框架VTG,能够处理物体变形、概念混合、运动预测和场景转换四大任务。通过插值初始化缓解内容突变问题,结合双向运动微调提升时间连贯性,并引入表示对齐正则化增强保真度。实验表明,VTG在构建的TransitBench基准和公开数据集上均优于现有方法,实现了语义相关、高保真且平滑的过渡效果。该框架为内容创作提供了高质量的过渡生成工具。
2025-08-06 22:23:55
1114
原创 全景宇宙黑科技!HunyuanWorld 1.0 发布:一键生成360°可交互3D世界
腾讯混元世界1.0(HunyuanWorld1.0)是一个创新的3D世界生成框架,通过融合2D与3D生成技术,实现从文本/图像创建沉浸式可交互3D场景。其核心是语义分层的3D网格表示,支持360°全景世界代理、分层重建和物体级解耦建模。采用全景图像作为世界代理,结合深度估计、网格变形和世界一致性视频扩散等技术,解决了传统方法在3D一致性、交互性和可扩展性方面的局限。实验表明,该系统在视觉质量、场景一致性和交互性上优于现有方法,支持VR、游戏开发、物理仿真等应用场景。
2025-08-05 21:42:46
998
原创 AI配音新王者!快手AudioGen-Omni:视频喂给它,歌声/语音/音效秒出,唇形精准到帧!
AudioGen-Omni 首个统一多模态框架,支持视频同步生成多样化音频(通用音频、语音、歌曲)。该模型采用多模态扩散Transformer(MMDiT)架构,通过相位对齐位置注入(PAAPI)技术实现精确的视听同步。创新性地使用轻量级歌词-转录模块实现帧对齐表示,无需音素时长监督。模型在联合训练范式下,利用大规模多模态数据,支持灵活的条件输入(视频/文本/音频任意组合)。实验表明,其在音频质量、语义连贯性和时序对齐方面均达到SOTA水平,8秒音频生成仅需1.91秒。
2025-08-05 21:36:11
1562
原创 ICCV 2025|告别语义漂移!清华最新3D场景定制神器ScenePainter让“想象”走得更远
本文提出ScenePainter框架,解决3D场景生成中的语义漂移和多样性不足问题。通过构建分层图结构SceneConceptGraph,建模场景中物体、布局与风格的复杂关系,并优化扩散模型以对齐场景特定先验。框架支持动态细化概念关系,平衡语义一致性与内容创新。实验表明,相比现有方法(如WonderJourney),ScenePainter生成的长序列3D视图更一致且沉浸,CLIP-I和DINO指标分别提升15%和12%,用户研究显示其在多样性-一致性权衡上优势显著。
2025-08-04 23:42:57
652
原创 ICCV 2025|单视频生成动态4D场景!中科大&微软突破4D生成瓶颈,动画效果炸裂来袭!
本文提出创新性4D生成框架GVF-Diffusion,通过"4D网格变分自编码器+高斯变分场扩散模型"双模块架构,实现高效视频到4D内容生成。关键突破包括:1)首创直接编码4D动画为紧凑隐空间的VAE,结合网格引导损失确保运动对齐;2)采用时间感知DiT架构的条件扩散模型,通过交叉注意力融合视频特征与3D高斯场;3)在合成数据训练下展现优秀真实视频泛化能力。实验表明,该方法在PSNR(25.37)、LPIPS(0.098)等指标上超越现有技术,单序列生成仅需4.5秒。
2025-08-04 23:37:06
1561
原创 ICCV 2025 | 32倍瘦身成功!英伟达最新DC-AR,秒杀扩散模型!图像生成进入“光速时代”
本文提出DC-AR,一种高效的自回归文本生成图像框架。通过引入DC-HT混合tokenizer(32倍空间压缩率)和三阶段适应训练策略,解决了传统方法重建质量低的问题。DC-AR采用结构-细节分离生成机制:先预测离散token确定图像结构,再用残差token优化细节。实验表明,该方法在MJHQ-30K上取得5.49 gFID,推理速度比扩散模型快1.5-7.9倍,延迟降低2.0-3.5倍,仅需12步即可生成高质量图像,同时支持跨分辨率泛化。
2025-07-24 23:41:25
1080
原创 DiT迎来真·一致性之王!CharaConsist双杀角色变形&背景撕裂:跨场景换装不崩人设
本文提出CharaConsist,首个基于DiT架构的无需训练的一致性文本生成图像方法。针对现有方案在角色细节和背景一致性上的不足,该方法创新性地引入点追踪注意力机制和自适应Token合并技术:通过跨图像语义点匹配实现角色细粒度对齐,利用掩码提取分离前景/背景控制,并采用动态位置编码保持几何关系。实验表明,在背景保持与切换任务中,该方法在CLIP-I-fg/bg指标上分别超越基线模型15%/20%,且无需额外训练即可适配十亿级参数DiT。
2025-07-24 23:37:46
967
原创 动脑就能P图!LoongX重磅突破:首个「脑波+AI」图像编辑系统诞生,意念修图不是梦!
摘要: 本文提出LoongX框架,利用多模态神经信号(EEG、fNIRS、PPG、动作及语音)驱动免手图像编辑,解决了传统文本提示的交互局限。通过跨尺度状态空间(CS3)编码器和动态门控融合(DGF)模块,LoongX高效提取并融合多模态特征,结合扩散模型(DiT)实现语义对齐。
2025-07-22 22:33:49
966
原创 AI绘画翻车元凶找到了!新神器IMBA损失,在线轻调立竿见影,效果炸裂!清华&快手出品
本文提出IMBAloss方法,通过在线概念均衡提升生成模型的概念组合能力。研究首先分析了影响概念组合的三大因素:模型规模、数据规模和分布,发现数据分布是关键决定因素。针对数据不平衡问题,创新性地提出IMBA距离作为数据分布度量指标,并在此基础上设计自适应的IMBAloss损失函数,实现概念级均衡训练。为评估惰性概念组合能力,构建了Inert-CompBench基准测试集。实验表明,该方法在多个基准上显著提升组合成功率,尤其在处理低频概念时表现突出。
2025-07-22 22:30:22
866
原创 海报设计革命,开源媲美部分商用!港科大&美团等提出PosterCraft:让AI实现「构图自由」
摘要: PosterCraft提出了一种统一框架,通过四阶段级联优化(文本渲染优化、风格微调、美学强化学习、视觉-语言反馈)生成高质量海报,解决了传统模块化方法导致的视觉连贯性差问题。其核心创新包括:构建专属数据集(如Text-Render-2M、HQ-Poster-100K)、区域感知校准策略和基于偏好的强化学习。实验表明,PosterCraft在文本准确性、布局连贯性和美学质量上超越开源基准,媲美商业系统,为端到端海报生成提供了高效解决方案。项目资源(代码、论文、演示)均已开源。
2025-07-06 22:57:42
828
原创 SIGGRAGH 2025 | AI视频生成新纪元!港大&达摩院发布LayerFlow:分层视频生成黑科技
LayerFlow一种创新的分层视频生成框架,能够同时生成带透明通道的前景、纯净背景及合成全景视频。通过层级文本提示控制和时间维度拼接实现多层协同生成,并设计了多阶段训练策略:先使用低质量视频数据训练基础模型,再通过MotionLoRA适配静态图像,最后用ContentLoRA融合高质量图像与视频数据。实验表明,该方法在审美质量、文本对齐和分层分解任务上显著优于基线模型,为视频编辑与特效制作提供了灵活可控的解决方案。该工作突破了传统T2V模型无法分层控制的限制,同时有效缓解了高质量分层视频数据稀缺的问题。
2025-06-18 13:32:09
662
原创 视频去物“魔法橡皮擦”来了!MiniMax-Remover:新SOTA方法告别CFG,6步搞定
视频目标移除中的核心挑战模型容易生成幻觉物体(hallucinated objects)存在视觉伪影(visual artifacts)现有方法的局限性依赖计算成本高的采样过程严重依赖无分类器引导(Classifier-Free Guidance, CFG)推理速度慢,效率低。
2025-06-18 13:06:53
789
原创 CVPR`25 | 感知性能飙升50%!JarvisIR:VLM掌舵,为自动驾驶装上“火眼金睛”,不惧恶劣天气
JarvisIR是一种基于视觉语言模型(VLM)的智能图像恢复系统,专为解决自动驾驶等场景中复杂天气条件下的图像退化问题而设计。该系统通过VLM作为控制器,动态调度多个专家模型进行图像修复,并提出CleanBench数据集(包含合成和真实数据)及MRRHF对齐算法(结合监督微调与人类反馈)。实验表明,JarvisIR在真实场景中平均提升感知指标50%,显著优于现有方法。该研究为智能化图像恢复提供了新思路,推动了多模型协同技术的发展。
2025-06-17 23:09:23
1032
原创 打破次元壁!港大和达摩院联合发布头号玩家PlayerOne模型:世界首款“自我中心”模拟器!
香港大学与阿里达摩院联合推出PlayerOne模型,实现真实世界的第一人称动态模拟。该系统通过外置摄像头捕捉用户动作(如手势、头部转动),将其无缝融入由单张图像构建的虚拟场景,支持无限制交互与AAA级画质体验。关键技术包括:部件解耦的动作编码(区分头/手/躯干)、4D场景点云重建确保一致性,以及两阶段训练策略解决数据稀缺问题。相比现有方案,PlayerOne在动作对齐和场景交互方面表现更优,为沉浸式社交、虚拟探索等应用开辟新可能。
2025-06-17 00:11:07
1204
原创 为何前馈3DGS的边界总是“一碰就碎”?PM-Loss用“3D几何先验”来解
本文提出PM-Loss,一种用于提升前馈式3D高斯泼溅(3DGS)几何质量的正则化损失。针对现有方法依赖2D深度图导致几何边界不完整的问题,PM-Loss利用大型3D重建模型生成的点云作为几何先验,在训练时直接约束3D空间的高斯分布。实验表明,该方法能有效消除边界浮点,在主流模型和数据集上实现超过2dB的PSNR提升,且无需修改模型架构或增加推理开销。这项工作为3DGS的几何重建提供了新的优化思路。
2025-06-16 23:20:35
931
原创 CVPR 2025 | 训练效率提升42%!上交&腾讯优图&浙大发布IAR:打破LLM视觉生成瓶颈
针对自回归视觉生成模型中图像与语言的根本差异问题,提出IAR改进方法。研究发现视觉编码空间中相似编码对应相近图像内容,据此设计两项创新技术:(1)基于平衡K-means的码本重排策略,确保簇内编码高度相似;(2)簇导向交叉熵损失,引导模型预测目标Token所在簇而非单一Token。实验表明,该方法显著提升生成质量和训练效率(最大提升42%),在ImageNet上取得FID 2.19、IS 362.0的SOTA效果,且可泛化至LlamaGen、VAR等多种自回归模型。该工作为统一多模态生成提供了新思路。
2025-06-15 22:57:41
895
原创 视频修复黑科技!SeedVR2一步出高清,对抗训练让模糊瞬间变好莱坞级!南洋理工&字节
摘要: 本文提出 SeedVR2,一种基于一步扩散模型的高效视频修复方法,通过 自适应窗口注意力机制 动态调整窗口大小,解决高分辨率(如1080p)修复中的窗口不一致问题。结合 对抗式后训练 和渐进式蒸馏策略,优化损失函数(如特征匹配损失),显著提升模型稳定性与修复质量。实验表明,SeedVR2在合成与真实场景数据上均优于现有方法,推理速度比多步扩散模型快4倍以上,兼顾高效性与细节还原能力。未来将优化模型复杂度以支持实时应用。
2025-06-15 22:53:32
1146
原创 首个自回归文生图风格化!StyleAR突破AI绘图新高度:单张图+提示词,完美复刻任意风格!
当前多模态自回归(AR)模型虽在视觉生成中表现优异,但在风格对齐的文本到图像生成任务中仍面临挑战。该任务需要构建“文本-图像-图像”三元组数据(包含提示词、参考风格图像和目标图像),但大规模获取这类具有特定风格的三元组数据十分困难。现有方法在训练中容易出现内容泄露问题,影响生成图像的风格一致性和语义对齐。
2025-06-09 00:38:12
1003
原创 图像生成里的“思维链”对决:DPO与GRPO谁主沉浮?港中文&北大等首发系统化对比研究
这项开创性研究为图像生成领域引入 RL 思维链机制提供了系统的理论与实证支撑。DPO 与 GRPO 并非简单的“优劣之分”,而是更适合于不同场景:DPO 适合在已有高质量数据基础上深度优化,追求精细化输出GRPO 则适合泛化需求高、任务分布多样的实际应用环境与此同时,研究也强调了奖励模型作为“训练导航仪”的重要性,未来在奖励模型的泛化性设计上仍有很大提升空间。
2025-06-09 00:34:18
928
原创 优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!
HunyuanCustom是一种创新的多模态定制视频生成框架,首次实现了图像、音频、视频和文本四模态联合驱动的视频生成,突破了传统单模态(如图像)的限制。该框架通过时序拼接和跨帧特征增强,显著提升了生成视频中主题的身份一致性,优于现有的开源和商业模型。HunyuanCustom采用了模块化条件注入机制,如AudioNet和视频Patchify对齐,实现了多模态条件的高效解耦与融合,兼顾了灵活性与性能。
2025-05-11 23:27:00
790
原创 多模态与生成正迈向终极大一统!阿里最新3万字长文梳理统一的多模态理解和生成模型
本文综述了统一多模态理解与生成模型的最新进展、挑战与机遇。首先,文章介绍了多模态理解与文本生成图像模型的基础概念,并梳理了现有统一模型的三大架构范式:基于扩散的架构、基于自回归的架构,以及融合自回归与扩散机制的混合架构。随后,文章整理了适配统一模型的数据集与评测基准,为后续研究提供资源支持。文章还探讨了该领域面临的核心挑战,包括分词策略、跨模态注意力机制与数据问题。
2025-05-11 23:22:24
1619
原创 重磅突破!只需一张图,一键生成沉浸式4D全景世界!HoloTime重塑VR/AR体验(北大等)
HoloTime框架提出了一种创新的方法,将静态全景图像转换为动态的4D场景,解决现有技术中沉浸体验受限、数据瓶颈和时空不一致性的问题。包括全景动画生成器和全景时空重建技术,通过两阶段运动引导生成策略和4D高斯泼溅(4D-GS)表征,实现了高质量的全景视频生成和4D场景重建。HoloTime还引入360World数据集,这是首个固定摄像机视角的全景视频综合数据集,为4D生成研究提供了重要支持。实验结果表明,HoloTime在全景视频生成质量和4D场景时空一致性方面均有显著提升,为元宇宙内容生产提供了新范式。
2025-05-08 23:51:19
1366
原创 无需外挂!DiT自蒸馏神技SRA横空出世:偷偷自学的表征对齐术让生成质量暴涨!
Diffusion transformer在视觉生成领域展现出了有效的可扩展性和可迁移性。最近的研究发现高质量的内部表征能够加速其生成训练,并提升生成样本的质量然而,现有方法在提供表征指导时,要么引入复杂训练框架,要么依赖大规模预训练模型,这限制了其应用场景和资源效率。
2025-05-08 23:47:07
736
原创 CVPR`25 | SOTA!首揭PCA解决长视频低质问题!FreePCA让长视频丝滑如电影!(中科大)
长视频生成的分布偏移问题使用基于短视频训练的模型生成长视频时,由于帧数变化导致数据分布偏移,出现质量下降、物体缺失和运动缓慢等问题。全局与局部信息难以有效融合现有方法(如全局对齐或局部滑动窗口拼接)无法兼顾全局一致性和局部质量,导致视频出现运动不一致或视觉质量下降。外观与运动耦合的挑战视频中的外观和运动高度耦合,直接融合全局和局部特征会导致生成结果不协调。
2025-05-07 22:48:53
918
原创 五一长假冲上HuggingFace榜第二,仅次于Qwen3!浙大哈佛「全能LoRA」杀疯了
精度与效率的权衡问题现有基于微调的方法(Fine-tuning)需要大量计算资源和数据集,效率低。免训练方法(Training-free)在指令理解和编辑质量上表现不佳,精度不足。指令理解与编辑质量不足免训练方法难以准确解析复杂指令,导致编辑效果不理想。微调方法依赖大规模数据训练(如 450K~10M 样本),计算成本高。初始噪声选择影响编辑质量不同的初始噪声会导致不同的编辑效果,如何优化噪声选择以提高输出质量是关键挑战。
2025-05-07 22:44:33
916
原创 颠覆影视圈!全球首个开源「无限时长」电影生成模型炸场:昆仑万维把视频生成卷到新时代
Prompt Adherence(提示词遵循):现有通用多模态大语言模型(MLLM)难以理解电影语法(如镜头构图、演员表情、摄像机运动),导致生成的视频不符合专业电影风格。Motion Dynamics(运动动态):现有方法在优化时往往牺牲运动质量以提升视觉质量,导致动态效果不足。Video Duration(视频时长):现有模型受限于分辨率优化,通常只能生成5-10秒的短视频,难以实现长视频合成。Training Stability(训练稳定性)
2025-04-24 22:32:13
1392
原创 只需一张图,万物皆可插!Insert Anything开源啦!开创AI图像插入新时代|浙大&哈佛等
任务局限性:现有方法仅针对特定任务(如人物插入、服装插入),缺乏通用性。控制模式单一:依赖固定控制方式(仅掩码或仅文本引导),灵活性不足。视觉-参考不协调:插入内容与目标场景风格不一致,或丢失参考图像的细节特征。
2025-04-24 22:24:09
790
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人