AIGC
文章平均质量分 95
万里鹏程转瞬至
一名热爱深度学习算法实践的算法工程师,工作日长期活动在线,有项目研发技术问题均可私聊。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
论文解读:wan-s2v | audio-driven cinematic video generation
当前最先进的(SOTA)音频驱动角色动画方法在简单的语音和歌唱的场景中表现出色。然而,。为了解决这一问题,Wan-S2V被提出。与现有方法相比,Wan-S2V在电影场景中实现了显著增强的表现力和保真度。与Hunyuan-Avatar和Omnihuman等前沿模型进行了基准测试,Wan-S2V显著优于这些现有解决方案。此外,Wan-S2V还支持在长视频生成和精确视频唇同步编辑中的应用。原创 2025-12-06 16:14:50 · 1219 阅读 · 0 评论 -
wan2.1 论文精读三 | 下游应用
本博文一共介绍了wan2.1模型在图生视频(含首尾帧、视频续写)、视频编辑(VACE架构)、文生图、个性化视频(参考id生成视频,类vace架构)、摄像机运动控制、实时视频生成(世界模型)、音频生成领域的应用。关于图生视频领域,主要基于时序条件图像编码、mask控制。具体是将条件图像 I与沿时间轴填充零的帧连接起来,这些引导帧通过 Wan- VAE 压缩为条件潜在 zc,最终chanel为c;引入了一个二进制掩码 M ,其中 1 表示保留的帧,0 表示要生成的帧。最终实现基于mask 0,1标识位控原创 2025-11-22 21:45:35 · 944 阅读 · 0 评论 -
wan2.1 论文精读二 | 模型设计与加速
关于训练不管是VAE还是DIT都是进行了渐进式的训练,从图像到视频、从低分辨率到高分辨率;关于DIT还经过了高质量数据到后训练,这一阶段类似与LLM基模训练后的指令微调,主要是提升生成视频的视觉保真度和运动动态表现。在视频生成任务中,只有DiT模型会进行优化,而文本编码器和VAE编码器则保持冻结状态。关于性能优化训练过程中用到了全分片数据并行(FSDP)。对于激活值,通过上下文并行(CP)实现。设计了一种二维CP架构,融合了Ulysses和环形注意力的特性,类似于USP(方与赵,2024)。该设计原创 2025-11-02 20:40:21 · 1773 阅读 · 0 评论 -
wan2.1 论文精读一 | 导论与数据处理
基于本博文可以发现wan2.1在训练数据上分为预训练数据、后训练数据、caption模型训练数据。预训练数据。预训练数据 秉持三大核心原则:确保数据质量、保持多样性、大规模。先进行了基本维度的低质量(文本、美学、NSFW、水印、黑边、过曝、模糊、模糊、AI数据滤除)过滤。然后对数据进行聚类,进行类别的平衡。最后进行运动质量的分类,筛选出自然、完整且具有显著动态的视频,同时避免静态或抖动的运动。同时为了保证模型对于文字的生成能力,额外引入了文本数据集。后训练数据 核心目标是通过高质量数据提升生成视频原创 2025-11-01 17:51:19 · 1389 阅读 · 0 评论 -
论文阅读:Wan-Animate: UNIFIED CHARACTER ANIMATION AND REPLACEMENT WITH HOLISTIC REPLICATION
根据实际应用需求,我们通常采用1帧或5帧作为时间引导,分别对应1或5帧内容。完成各段落的去噪处理后,我们会删除对应参考latent和时间引导latent的部分,最终将剩余生成内容拼接成完整的长视频。原创 2025-10-26 23:00:45 · 1134 阅读 · 0 评论 -
论文阅读:Res-Tuning: A Flexible and Efficient Tuning Paradigm via Unbinding Tuner from Backbone
1、Res-Tuning和Res-Tuning-Bypass在五组FGVC数据集上的少样本学习中【4.4节】,相较于其他参数高效和内存高效的调参策略均展现出显著优势。当训练样本较少时,Res-Tuning-Bypass在单样本或双样本场景下的表现与非内存高效方法相当甚至更优。2、Res-Tuning在领域偏移下展现出优异的鲁棒性【4.4节】。源域选用ImageNet-1K[11],目标域则涵盖ImageNet的四个变体:ImageNet-V2[62]、ImageNet-Sketch[73]、ImageNe原创 2025-10-19 22:16:00 · 723 阅读 · 0 评论 -
论文阅读:DMD | Improved Distribution Matching Distillation for Fast Image Synthesis
发表时间:2024年5月24日分布匹配蒸馏(DMD)生成的一步生成器能够与教师模型在分布上保持一致,即。然而,。这些。这不仅在大规模文本到图像合成中计算成本高昂,还限制了学生模型的质量,使其与教师模型的原始采样路径过于紧密绑定。DMD2:在ImageNet-64×64数据集上FID分数达到1.28,在零样本COCO 2014数据集上FID分数为8.35。推理成本降低了500%×,超越了原始教师模型。原创 2025-09-07 21:53:03 · 1478 阅读 · 0 评论 -
论文翻译:VSA | Faster Video Diffusion with Trainable Sparse Attention
项目地址:https://github.com/hao-ai-lab/FastVideo模型地址:https://huggingface.co/FastVideo/FastWan2.1-T2V-1.3B-Diffusers/tree/main发表时间:2025.8.4 (v4版本)DiTs的扩展能力受限于其二次3D注意力机制,尽管大部分注意力权重集中在少量位置子集上。我们将这一发现转化为VSA,一种可训练且硬件高效的稀疏注意力机制,在训练和推理阶段均可替代全注意力机制。原创 2025-08-31 23:44:56 · 987 阅读 · 0 评论 -
论文阅读:VACE: All-in-One Video Creation and Editing
论文地址:https://arxiv.org/pdf/2503.07598开源时间:2025年3月11日代码地址:https://github.com/ali-vilab/VACE项目地址:https://ali-vilab.github.io/VACE-Page/DIT在生成高质量图像和视频方面展示了强大的能力和可扩展性。进一步追求生成和编辑任务的统一,在图像内容创建领域取得了显著进展。然而,由于在时间和空间动态上保持一致性的内在需求,实现视频合成的统一方法仍然具有挑战性。原创 2025-08-24 23:03:06 · 1196 阅读 · 0 评论 -
论文项目:DCM代码阅读 | Dual-Expert Consistency Model for Efficient and High-Quality Video Generation
本文(Dual-Expert Consistency Model, DCM):其中。DCM 在的同时,仍能,验证了双专家机制在视频扩散模型蒸馏中的有效性。原创 2025-08-17 16:56:08 · 1222 阅读 · 0 评论 -
论文阅读:DMD蒸馏 | One-step Diffusion with Distribution Matching Distillation
DMD的目的是训练一个单步生成器Gθ,但不包含时间条件,将随机噪声z映射为一张逼真的图像。其通过最小化两个损失的和来训练快速生成器:一个是分布匹配损失,其梯度更新可以表示为两个得分函数的差值;另一个是回归损失,它鼓励生成器在固定的噪声-图像对数据集上匹配基础模型输出的大尺度结构。原创 2025-08-03 23:43:26 · 2171 阅读 · 0 评论 -
论文阅读:Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion
论文地址:https://arxiv.org/pdf/2506.08009发表时间:2025年6月9日我们提出了一种用于自回归视频扩散模型的新型训练范式——自强制(Self Forcing)。该方法解决了长期存在的“暴露偏差”问题:在进行学习,但在。与以往那些基于真实上下文帧对未来帧进行去噪的方法不同,自强制通过。这一策略使得我们能够通过视频层面的整体损失进行监督,从而直接评估整个生成序列的质量,而不仅仅依赖传统的逐帧目标函数。原创 2025-07-31 07:32:44 · 2147 阅读 · 0 评论
分享