kangxi11122344-CSDN博客

原创 Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos学习笔记

text与pose条件生成视频

2023-11-21 16:03:10 1448 2

原创 LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation学习笔记

这使得文本到图像扩散模型学习具有8 ~ 16个视频的特定运动模式

2023-11-07 16:27:26 202

原创 VIDEODIRECTORGPT: CONSISTENT MULTI-SCENEVIDEO GENERATION VIA LLM-GUIDED PLANNING学习笔记

两阶段视频生成框架，视频内容规划（使用LLM），grounding（落地）的多场景视频生成（Lay2Vid）Lay2Vid：将基于图像/文本的layout control ability（布局控制能力）和entity-level temporal consistency（实体级时间一致性）结合在一起。

2023-10-24 10:45:56 198

原创 MOTIONDIRECTOR: MOTION CUSTOMIZATION OFTEXT-TO-VIDEO DIFFUSION MODELS学习笔记

将特定的motion（运动）推广到各种appearance（外观）提出了具有双路径架构的MotionDirector和一种新的appearance debiased temporal training objective（外观去偏时间训练目标），将外观和运动的学习解耦

2023-10-17 15:52:24 256

原创 Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator学习笔记

free bloom：一种新的zero-shot text-to-video pipeline 利用了llm rich world knowledge和ldm生成能力

2023-10-10 15:04:33 265 1

原创 REUSE AND DIFFUSE: ITERATIVE DENOISING FORTEXT-TO-VIDEO GENERATION学习笔记

Reuse and Diffuse（重用和扩散），根据LDM已经生成的帧生成更多的帧（以具有少量帧的初始视频片段为条件，通过重用原始潜在特征并遵循先前的扩散过程来迭代生成额外的帧。）

2023-09-19 17:27:31 69

原创 EMPOWERING DYNAMICS-AWARE TEXT-TO-VIDEODIFFUSION WITH LARGE LANGUAGE MODELS学习笔记

利用llm进行行动规划和场景想象

2023-09-12 15:01:31 159 1

原创 DiffSynth: Latent In-Iteration Deflickering for Realistic Video Synthesis学习笔记

latent域迭代去闪烁框架，视频去闪烁算法

2023-09-05 09:58:48 265

原创 SimDA: Simple Diffusion Adapter for Efficient Video Generation学习笔记

现有的T2V模型要么从头开始训练，或将大型T2I模型适应视频，需要大量计算资源和数据设计轻量级spatial and temporal adapters（空间和时间适配器）进行迁移学习；将原始spatial attention（空间注意力）更改为所提出的 Latent-Shift Attention (LSA)，以实现时间一致性。

2023-08-30 18:16:24 278 1

原创 Implicit Diffusion Models for Continuous Super-Resolution学习笔记

集成了Implicit Neural Representation（隐式神经表示）和去噪扩散模型

2023-08-15 13:10:41 690 1

原创 vid2vid-zero学习笔记

直接使用预先训练的文本到图像扩散模型的zero-shot视频编辑方法，无需任何训练

2023-07-25 21:05:42 307

原创 Solving Linear Inverse Problems Provably via Posterior Sampling with Latent Diffusion Models学习笔记

利用预训练latent diffusion解决线性逆问题

2023-07-17 22:29:08 167 1

原创 VidEdit: Zero-shot and Spatially Aware Text-driven Video Editing学习笔记

将atlas-based（基于图谱）和预训练的文本到图像扩散模型相结合，提供了一种无需训练且高效的编辑方法

2023-07-11 10:01:01 170

原创 Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation学习笔记

a parameter-free temporal shift module（无参数的时间偏移模块）

2023-07-04 16:27:13 206

原创 FateZero: Fusing Attentions for Zero-shot Text-based Video Editing学习笔记

使用预训练的t2i模型实现zero-shot 、text-based 视频编辑

2023-06-17 20:59:46 488 1

视频编辑任务：编辑后的视频应忠实地保留源视频的内容，保持生成帧之间的时间一致性，并与目标提示保持一致。现有的方法仍然难以忠实和充分地控制输出，同时保持时间一致性ControlVideo将Canny边缘图、HED边界和所有帧的深度图等视觉条件作为附加输入，从而放大源视频的指导。微调diffusion model和ControlNet中的attention模块，增强忠实度和时间一致性。（self-attention转换为key-frame attention，将所有帧与选定帧对齐。

2023-06-17 15:07:58 641 1

原创 Prompt-Free Diffusion学习笔记

将“text”从预训练的T2I模型中删除

2023-06-06 18:55:55 556 1

原创 stableSR学习笔记

stableSR学习笔记

2023-05-29 21:48:08 3625 3

kangxi11122344的博客