LIA | 使用隐式空间来实现视频驱动单张图数字人生成(ICLR 2022)
来控制输入图片的运动,这样虽然能够避免对领域知识或标记 gt 的需求,能够提升在任意图像上测试的性能。其他的先验信息如关键点等,也会使用一个额外的网络来进行端到端训练,作为预测光流场过程的中间特征。且在 LIA 中,在一个 encoder-generator 结构中的 motion 和 appearance 是解耦的,没有使用分开的网络结构,这样能降低计算量。在本文中,为了降低复杂度,作者剔除了额外的分支,而是使用隐空间。框架结构如图 3 所示,整个模型是自编码器的结构,由两个主要的网络构成。
转载
2024-02-04 12:01:49 ·
96 阅读 ·
0 评论