Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos学习笔记-CSDN博客

本文链接：https://blog.csdn.net/kangxi11122344/article/details/134500461

Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos学习笔记

method
experiments

motivation:
生成文本可编辑和姿势可控的视频
缺乏具有成对video-pose captions（视频姿势字幕）和generative prior models for videos（视频生成先验模型）的综合数据集。
contribution：
利用容易获得的数据集：image pose pair，pose-free video，预训练的T2I模型，进行两阶段训练，生成pose-controllable character videos（姿势可控的视频）
在这里插入图片描述

method

在这里插入图片描述 第一阶段
训练pose-controllable text-to-image models（姿势可控的文本到图像模型）
用MMpose提取LAION中的human skeleton images（人体骨骼图像），形成image-text-pose dataset（有图像有文本有pose的数据集）LAION-Pose
利用多个 3D 卷积层作为姿势编码器并将它们插入到 U-Net 的每个块中
通过残差连接将姿势信息注入到U-Net模型的每一层（不是直接通道维度连接）
只有pose encoder可以训练
第二阶段
在无姿态视频数据集HDVLIA上进一步微调第一阶段模型。
利用T2I先验，预训练的 U-Net 的第一个卷积层膨胀为 1 × 3 × 3 卷积核，加入temporal attention和cross frame attention

experiments

在这里插入图片描述不同风格转换
multiple skeletons转换

与其他方法的比较，保持生成的外观和背景一致

ablation study：pose条件输入方法：
第一行：通道维度链接
第二行：单层卷积
第三行：多层卷积