AIGC中的Diffusion Models
文章平均质量分 91
分析AIGC中Diffusion Models相关的前沿文章原理及相关代码实践,不一定有规律,但会持续更新。
AI杰克王
AI杰克王,大厂算法经验,AI前沿从业。分享知识干货,探索可能性。
展开
-
【AIGC-图片生成视频系列-5】I2V-Adapter:一种用于视频扩散模型的通用图像生成视频适配器
在快速发展的数字内容生成领域,焦点已从文本到图像 (T2I) 模型转移到更先进的视频扩散模型,特别是文本到视频 (T2V)和图像到视频 (I2V)。今天要讲解的I2V-Adapter是一种用于视频扩散模型的通用图像生成视频适配器。原创 2024-01-01 22:15:52 · 1829 阅读 · 0 评论 -
【AIGC-图片生成视频系列-4】DreamTuner:单张图像足以进行主题驱动生成
什么是主题驱动生成?使用一张或几张参考图像生成定制概念的个性化应用。原创 2023-12-31 23:25:43 · 3604 阅读 · 1 评论 -
【AIGC-图片生成视频系列-2】八仙过海,各显神通:AI生成视频相关汇总剖析
最近「图片生成视频系列」层出不穷,我拜读并结合实践(对,就是手撕代码,有开源就撕),并对以下几篇文章的相似点以及关键点稍微做个总结:原创 2023-12-30 23:02:28 · 1120 阅读 · 0 评论 -
【AIGC-图片生成视频系列-3】AI视频随心而动:MotionCtrl的相机运动控制和物体运动控制
MotionCtrl 提出一个用于视频生成的统一且灵活的运动控制方法,可以实现独立有效地管理生成视频中的相机运动和物体运动。原创 2023-12-30 22:54:45 · 1463 阅读 · 0 评论 -
【AIGC-文本/图片生成视频系列-10】SparseCtrl:在文本生成视频的扩散模型中添加稀疏控制
目前学术界利用密集结构信号(例如每帧深度/边缘序列)来增强可控性,但其收集相应地增加了推理负担。实现对时间稀疏信号的灵活结构控制,仅需要一个或几个输入。它包含一个额外的条件编码器来处理这些稀疏信号,同时保持预训练的 T2V 模型不变。所提出的方法与各种模式兼容,包括草图、深度和 RGB 图像,为视频生成提供更实用的控制,并促进故事板、深度渲染、关键帧动画和插值等应用。大量实验证明了 SparseCtrl 在原始和个性化 T2V 生成器上的泛化能力。原创 2024-01-16 12:57:04 · 1873 阅读 · 0 评论 -
【AIGC-文本/图片生成视频系列-9】MagicVideo-V2: 多阶段高美感视频生成
MagicVideo-V2 是一个多阶段端到端视频生成管线,能够根据文字描述生成高审美视频、高分辨率的视频。包含以下关键模块:文本到图像模型,可根据给定的文字描述生成高保真的审美图像。图像到视频模型,使用文本提示和生成的图像作为生成关键帧的条件。视频到视频模型,对关键帧进行细化和超分辨率处理,生成高分辨率的视频。视频帧插值模型,对关键帧之间的帧进行插值,以平滑视频运动最后生成高分辨率、流畅、极具美感的视频。原创 2024-01-14 19:40:05 · 1659 阅读 · 0 评论 -
【AIGC-文本/图片生成视频系列-8】Align your Latents: 基于潜在扩散模型的高分辨率视频合成
回顾LDM的优势:潜在扩散模型 (LDM) 可实现高质量图像合成,同时通过在压缩的低维潜在空间中训练扩散模型来避免过多的计算需求。本文将 LDM 范式应用于高分辨率视频生成,这是一项特别资源密集型的任务。具体步骤如下:1. 首先仅在图像上预训练 LDM;2. 然后,通过向潜在空间扩散模型引入时间维度并对编码图像序列(即视频)进行微调,将图像生成器变成视频生成器。类似地,我们在时间上对齐扩散模型上采样器,将它们转变为时间一致的视频超分辨率模型。1. 提出了一种有效的方法来训练基于LDM的。原创 2024-01-11 22:16:03 · 1178 阅读 · 0 评论 -
【AIGC-图片生成视频系列-7】MoonShot:实现多模态条件下的可控视频生成和编辑
已有问题及解决方法:在视觉外观方面,文字提示词无法精确描述生成的外观。现有解决方法是在一些图片上对模型做微调,从而实现个性化的生成。同样地,对于视频生成,AnimateDiff 依赖于定制的模型权重来注入条件视觉内容,无论是通过 LoRA 还是 DreamBooth。在几何结构生成方面,尽管已有的方法,如 ControlNet 和 T2I-Adapter,利用深度、边缘图作为图像生成的视觉条件,但类似的策略对于视频合成仍然是不确定的。原创 2024-01-06 22:28:30 · 1661 阅读 · 0 评论 -
【AIGC-图片生成视频系列-6】SSR-Encoder:用于主题驱动生成的通用编码器
上文提到,人们对主题驱动越来越感兴趣。但通过制作完美的文本提示来生成所需的主题内容是一大难点,并且对大多数用户而言门槛略高。分析已有的解决策略,可以发现:主题驱动的图像生成任务通过从参考图像中学习主题,并生成符合身份和风格等特定概念的图像。一种方法是涉及test-time微调,虽然有效,但需要大量的计算资源来学习每个新主题。一种方法是将参考图像编码到图像嵌入中以绕过微调成本。但是基于编码器的模型通常需要与基础扩散模型联合训练,限制了它们的通用性。原创 2024-01-02 23:22:28 · 1628 阅读 · 0 评论