ICLR 2023 | 首个3D人像视频生成模型！仅需1张2D人像，眨眼、口型都能改变

最新推荐文章于 2023-07-29 20:42:14 发布

Amusi（CVer）

最新推荐文章于 2023-07-29 20:42:14 发布

阅读量925

点赞数

文章标签： 3d 音视频人工智能计算机视觉机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247569579&idx=3&sn=a7b2284f30cf3c38350670a0eccdbd07&chksm=f9a0a224ced72b32d51c9de3d2520f517b88e2591651d40c38c2e4b27fbe05ee81c7653423e2&scene=126&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【计算机视觉】微信技术交流群

zcxu 投稿
转载自：量子位（QbitAI）

只需1张普通照片，就能合成全角度动态3D视频。

眨个眼、动动嘴，都是小case~

最近AIGC爆火，3D人像模型生成这边也没闲着。

如StyleNerf、StyleSDF、EG3D等方法相继出世。

但到目前为止，这种生成模型都还停留在单帧人像上。

最近，来自新加坡国立大学（NUS）和字节跳动的研究人员，在静态3D模型的基础上，提出了首个3D人像视频生成模型：PV3D（3D model for Portrait Video generation）。

PV3D的训练继承了3D GAN模型的优点，即无需动态的三维数据监督，只需要在足够数量的单视角2D视频数据上进行训练。

该生成框架将人像和动作进行解耦，基于视频的时间戳生成各自的三维表征，让视频可以从任意角度进行渲染。

长视频也能挑战：

3D动态人像生成

PV3D分别从独立的高斯分布中采样随机噪声来表征外表和运动，外表噪声生成视频的主体内容，控制人像的ID以及人脸的各个部分，运动噪声配合视频帧的时间戳控制当前帧的动作。

为了确保生成内容的真实性以及外表和运动的解耦，PV3D训练两个独立的判别器分别判定外表和运动的合理性。

该方法可以生成随机的人像视频以及相应的高质量的动态几何表面，让视频可以从任意角度进行渲染。

同时，该方法可以支持下游的应用任务，比如静态人像驱动，人像视频的重建以及对人像动作的修改，所有的结果均可以保持高的多视角一致性。

主流的3D GAN模型都脱胎于StyleGAN结构。

因此这些模型均会将采样得到的噪声先映射到一个高维度的中间隐式编码(intermidate latent code)，大量现有的研究表明这种结构的隐式空间包含了丰富的语义信息，可以用来控制生成的图像内容。

因此，最直接的拓展方式就是使用预训练的单帧3D GAN模型，通过学习一个额外的在隐式空间进行推理的时序模型对生成的内容进行合理的改变，从而生成3D人像视频。

然而，该方法的缺点是图片生成器和时序推理模型在不同的阶段分别被优化，导致最终的视频很难保持时间上的一致性。

另一种主流的视频生成模型使用稀疏训练的方式，在训练阶段直接随机生成视频中的少量帧，使用少数帧的时间戳编码运动信息，进一步的改变中间隐式编码从而一次性优化完整的生成器。

然而这种做法将全部的时序信息都包含在隐式空间中，导致最终的模型多样性较差、生成质量较低。

与上述方法不同，PV3D在原有GAN模型的基础上在特定尺度的生成模块中插入运动信息的编码层，这些编码层独立地将控制运动的噪声映射为隐式编码，使用modulated convolution操纵外表特征，再将操纵后的特征与原始特征融合，从而提高生成视频的时序一致性和运动多样性。

此外，本工作还研究了以下问题：

如何有效地在视频生成任务中利用渲染的视角先验信息

针对3D视频生成，如何设计合理的外表和运动判别器

PV3D模型基于最新的静态3D GAN模型EG3D进行开发，EG3D采用高效的3D表征Tri-plane实现图像生成。

在训练阶段，PV3D采用稀疏训练的策略，对于一个视频采样两个噪声、两个时间戳以及各自时刻对应的相机视角。

相对应的，模型生成两帧对应的3D表征进行渲染得到粗糙的结果。随后使用超分辨率模块将图片上采样。

PV3D设计了两个独立的判别器监督网络的学习，其中视频判别器会编码两帧的相机视角以及时间间隔去判断生成结果的合理性。

实验部分

评价指标

研究人员使用FVD来评估生成视频的质量。此外，为了评估多视角的一致性以及3D几何结构的质量，研究人员将3D GAN工作中常用的评价指标(生成人像的ID一致性、Chamfer距离、多视角的重投影误差)拓展到视频任务中。

与基线的对比

研究人员首先采用同期的3D视频生成工作3DVidGen作为基线。此外，研究人员还基于SOTA的单帧3D GAN (EG3D和StyleNerf) 和2D视频生成模型构建了三个基线模型。在3个公开数据集(VoxCeleb, CelebV-HQ, TalkingHead-1KH)上的实验结果表明，PV3D在生成视频的多样性，3D几何的质量，以及多视角一致性上均超越基线模型。

消融实验

研究人员对PV3D的各部分设计进行了消融实验，例如：运动信息的编码和注入的位置，运动信息的插入方式，相机视角的采样策略，以及视频判别器的设计。

团队介绍

目前，该论文已被ICLR 2023接收。

作者团队由新加坡国立大学Show Lab和字节跳动组成。

论文地址：
https://openreview.net/pdf?id=o3yygm3lnzS
项目主页：
https://showlab.github.io/pv3d/

点击进入—>CV微信技术交流群

CVPR/ECCV 2022论文和代码下载

后台回复：CVPR2022，即可下载CVPR 2022论文和代码开源的论文合集

后台回复：ECCV2022，即可下载ECCV 2022论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码，或者添加微信：CVer222，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer222，进交流群
CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！

▲扫码进群
▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

Amusi（CVer）

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
ICLR 2023 | 首个3D人像视频生成模型！仅需1张2D人像，眨眼、口型都能改变

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达点击进入—>【计算机视觉】微信技术交流群zcxu 投稿转载自：量子位（QbitAI）只需1张普通照片，就能合成全角度动态3D视频。眨个眼、动动嘴，都是小case~最近AIGC爆火，3D人像模型生成这边也没闲着。如StyleNerf、StyleSDF、EG3D等方法相继出世。但到目前为止，这种生成模型都还停留在单帧人像上。最近...
复制链接

扫一扫