AAAI 2024 | 让小姐姐跳起来！清华&港科大&腾讯提出：姿势可控的角色视频生成新工作...

最新推荐文章于 2024-04-20 23:59:38 发布

Amusi（CVer）

最新推荐文章于 2024-04-20 23:59:38 发布

阅读量176

点赞数

文章标签：音视频

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247588126&idx=2&sn=362afbb08666f88bb3d10e048546eaa1&chksm=f8e68768a28e22e27d3eda033d9f5893d530edbf58d058f7958ab7e94e8104564f3a4caa6596&scene=126&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【视觉和Transformer】微信交流群

扫码加入CVer知识星球，可以最快学习到最新顶会顶刊上的论文idea和CV从入门到精通资料，以及最前沿项目和应用！发论文，强烈推荐！

在CVer微信公众号后台回复：Pose，即可下载论文pdf和代码链接！快学起来！

论文：https://arxiv.org/abs/2304.01186

代码链接（已开源）：

https://github.com/mayuelala/FollowYourPose

主页：follow-your-pose.github.io/

现如今，生成文本可编辑和姿势可控的角色视频在创建各种数字人方面具有迫切的需求。然而，由于缺乏一个全面的数据集，该数据集具有成对的视频姿势字幕和视频的生成性先验模型，因此这项任务受到了限制。在这项工作中，我们设计了一种新颖的两阶段训练方案，该方案可以利用易于获得的数据集（即图像姿势对和无姿势视频）和预训练的文本到图像（T2I）模型来获得姿势可控的角色视频。

具体来说，在第一阶段，只有姿态图像对仅用于可控的文本到图像生成。我们学习了一个零初始化的卷积编码器来对姿态信息进行编码。在第二阶段，我们通过添加可学习的时间自注意力和改革后的跨帧自注意力块，通过无姿势视频数据集对上述网络的运动进行微调。在我们的新设计的支持下，我们的方法成功地生成了连续的姿势可控的角色视频，同时保留了预训练的T2I模型的概念生成和合成能力。

我们提出了一种两阶段训练策略，以有效地从我们提出的 LAION-Pose 数据集中学习图像姿势对齐，并从没有姿势注释的自然视频中学习时间相干性。在第一阶段训练中，只有姿态编码器 E p 可以训练来学习姿态控制。

在第二阶段训练中，只有时间模块是可训练的，包括时间自注意力（SA）和跨帧自注意力。在推理过程中，通过提供描述目标角色和相应外观的文本以及表示运动的姿势序列来生成时间连贯的视频。预训练稳定扩散的大多数参数都被冻结，包括伪 3D 卷积层以及交叉注意力（CA）和前馈网络（FFN）模块。具体框架结构如下

：

为了进一步保持时间一致性，我们利用帧间自注意力（SA）来进行交叉帧处理。不同的是，我们通过简单地在DDIM的上一次采样过程中重复使用每个时间步长的噪声，来生成更长的视频序列。具体而言，假设每次采样T帧，我们将最后T帧的噪声添加到下一个2个循环中，作为先验知识。需要注意的是，在整个去噪过程中，为了确保生成的长视频的时间一致性，会将每个时间步长的噪声添加到先验知识中。如图所示，所提出的方法仅调整了用于视频生成的帧间自注意力和时间自注意力。

通过以上两阶段的训练，结合为每个阶段精心设计的可调节模块，我们所提出的方法可以从轻松获得的数据集（例如人体和姿势的图像对以及随机视频）中生成连续的姿势可控视频。我们的方法也可以应用于其他相关的有条件视频生成任务，正如同时的有条件图像生成工作中所展示的。

总结一下，这篇工作主要解决了生成文本可编辑且姿势可控制的角色视频的问题。为实现这一目标，我们重新设计和调整了预训练的文本到图像模型，因为它具有强大的语义编辑和组合能力。我们设计了一个新的两阶段训练方案，可以利用大规模的图像姿势对和多样化的无姿势数据集。具体而言，在第一训练阶段，我们使用姿势编码器将姿势信息注入网络结构，并从图像-姿势对中学习，以实现姿势可控的文本到图像生成。在第二训练阶段，我们将图像模型扩展为3D网络，从无姿势视频中学习时间上的连贯性。通过我们的几项新设计，我们可以生成具有新颖创意和时间上连贯的视频，同时保留原始T2I模型的概念组合能力。

在CVer微信公众号后台回复：Pose，即可下载论文pdf和代码链接！快学起来！

CVPR / ICCV 2023论文和代码下载

后台回复：CVPR2023，即可下载CVPR 2023论文和代码开源的论文合集

后台回复：ICCV2023，即可下载ICCV 2023论文和代码开源的论文合集

计算机视觉和Transformer交流群成立
扫描下方二维码，或者添加微信：CVer444，即可添加CVer小助手微信，便可申请加入CVer-计算机视觉或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer444，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

Amusi（CVer）

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫