自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 问答 (1)
  • 收藏
  • 关注

原创 Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos学习笔记

text与pose条件生成视频

2023-11-21 16:03:10 1448 2

原创 LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation学习笔记

这使得文本到图像扩散模型学习具有8 ~ 16个视频的特定运动模式

2023-11-07 16:27:26 202

原创 VIDEODIRECTORGPT: CONSISTENT MULTI-SCENEVIDEO GENERATION VIA LLM-GUIDED PLANNING学习笔记

两阶段视频生成框架,视频内容规划(使用LLM),grounding(落地)的多场景视频生成(Lay2Vid)Lay2Vid:将基于图像/文本的layout control ability(布局控制能力)和entity-level temporal consistency(实体级时间一致性)结合在一起。

2023-10-24 10:45:56 198

原创 MOTIONDIRECTOR: MOTION CUSTOMIZATION OFTEXT-TO-VIDEO DIFFUSION MODELS学习笔记

将特定的motion(运动)推广到各种appearance(外观)提出了具有双路径架构的MotionDirector和一种新的appearance debiased temporal training objective(外观去偏时间训练目标),将外观和运动的学习解耦

2023-10-17 15:52:24 256

原创 Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator学习笔记

free bloom:一种新的zero-shot text-to-video pipeline 利用了llm rich world knowledge和ldm生成能力

2023-10-10 15:04:33 265 1

原创 REUSE AND DIFFUSE: ITERATIVE DENOISING FORTEXT-TO-VIDEO GENERATION学习笔记

Reuse and Diffuse(重用和扩散),根据LDM已经生成的帧生成更多的帧(以具有少量帧的初始视频片段为条件,通过重用原始潜在特征并遵循先前的扩散过程来迭代生成额外的帧。)

2023-09-19 17:27:31 69

原创 EMPOWERING DYNAMICS-AWARE TEXT-TO-VIDEODIFFUSION WITH LARGE LANGUAGE MODELS学习笔记

利用llm进行行动规划和场景想象

2023-09-12 15:01:31 159 1

原创 DiffSynth: Latent In-Iteration Deflickering for Realistic Video Synthesis学习笔记

latent域迭代去闪烁框架,视频去闪烁算法

2023-09-05 09:58:48 265

原创 SimDA: Simple Diffusion Adapter for Efficient Video Generation学习笔记

现有的T2V模型要么从头开始训练,或将大型T2I模型适应视频,需要大量计算资源和数据设计轻量级spatial and temporal adapters(空间和时间适配器)进行迁移学习;将原始spatial attention(空间注意力)更改为所提出的 Latent-Shift Attention (LSA),以实现时间一致性。

2023-08-30 18:16:24 278 1

原创 Implicit Diffusion Models for Continuous Super-Resolution学习笔记

集成了Implicit Neural Representation(隐式神经表示)和去噪扩散模型

2023-08-15 13:10:41 690 1

原创 vid2vid-zero学习笔记

直接使用预先训练的文本到图像扩散模型的zero-shot视频编辑方法,无需任何训练

2023-07-25 21:05:42 307

原创 Solving Linear Inverse Problems Provably via Posterior Sampling with Latent Diffusion Models学习笔记

利用预训练latent diffusion解决线性逆问题

2023-07-17 22:29:08 167 1

原创 VidEdit: Zero-shot and Spatially Aware Text-driven Video Editing学习笔记

将atlas-based(基于图谱)和预训练的文本到图像扩散模型相结合,提供了一种无需训练且高效的编辑方法

2023-07-11 10:01:01 170

原创 Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation学习笔记

a parameter-free temporal shift module(无参数的时间偏移模块)

2023-07-04 16:27:13 206

原创 FateZero: Fusing Attentions for Zero-shot Text-based Video Editing学习笔记

使用预训练的t2i模型实现zero-shot 、text-based 视频编辑

2023-06-17 20:59:46 488 1

原创 ControlVideo学习笔记

视频编辑任务:编辑后的视频应忠实地保留源视频的内容,保持生成帧之间的时间一致性,并与目标提示保持一致。现有的方法仍然难以忠实和充分地控制输出,同时保持时间一致性ControlVideo将Canny边缘图、HED边界和所有帧的深度图等视觉条件作为附加输入,从而放大源视频的指导。微调diffusion model和ControlNet中的attention模块,增强忠实度和时间一致性。(self-attention转换为key-frame attention,将所有帧与选定帧对齐。

2023-06-17 15:07:58 641 1

原创 Prompt-Free Diffusion学习笔记

将“text”从预训练的T2I模型中删除

2023-06-06 18:55:55 556 1

原创 stableSR学习笔记

stableSR学习笔记

2023-05-29 21:48:08 3625 3

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除