Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos学习笔记

Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos学习笔记


在这里插入图片描述
motivation:
生成文本可编辑和姿势可控的视频
缺乏具有成对video-pose captions(视频姿势字幕)和generative prior models for videos(视频生成先验模型)的综合数据集。
contribution:
利用容易获得的数据集:image pose pair,pose-free video,预训练的T2I模型,进行两阶段训练,生成pose-controllable character videos(姿势可控的视频)
在这里插入图片描述

method

在这里插入图片描述第一阶段
训练pose-controllable text-to-image models(姿势可控的文本到图像模型)
用MMpose提取LAION中的human skeleton images(人体骨骼图像),形成image-text-pose dataset(有图像有文本有pose的数据集)LAION-Pose
利用多个 3D 卷积层作为姿势编码器并将它们插入到 U-Net 的每个块中
通过残差连接将姿势信息注入到U-Net模型的每一层(不是直接通道维度连接)
只有pose encoder可以训练
第二阶段
在无姿态视频数据集HDVLIA上进一步微调第一阶段模型。
利用T2I先验,预训练的 U-Net 的第一个卷积层膨胀为 1 × 3 × 3 卷积核,加入temporal attention和cross frame attention

experiments

在这里插入图片描述在这里插入图片描述不同风格转换
在这里插入图片描述multiple skeletons转换
在这里插入图片描述
在这里插入图片描述
与其他方法的比较,保持生成的外观和背景一致
在这里插入图片描述
ablation study:pose条件输入方法:
第一行:通道维度链接
第二行:单层卷积
第三行:多层卷积

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值