【PaddlePaddle论文复现】Few-shot Video-to-Video Synthesis论文笔记

本文介绍了Few-shot Video-to-Video Synthesis的研究,该研究旨在解决现有视频合成技术对大量数据的依赖和有限的泛化能力。通过使用少量示例图像,模型能动态配置视频合成,实现对未见过的人或场景的视频生成。实验表明,模型性能与训练数据多样性和示例图像数量正相关。
摘要由CSDN通过智能技术生成

【PaddlePaddle论文复现】Few-shot Video-to-Video Synthesis论文笔记

正参加百度AI studio的论文复现课程(https://aistudio.baidu.com/aistudio/education/group/info/1340)

研究背景——目前技术的局限性

  • 视频到视频合成(vid2vid)旨在将输入的语义视频(如人体姿势视频)转换为输出的真实感视频。

  • 虽然vid2vid的最新技术有了显著的进步,但是现有的方法有两个主要的局限性:

  • 他们渴望数据。训练需要大量目标人体或场景的图像。

  • 学习模型的泛化能力有限。一个位姿到人的vid2vid模型只能合成训练集中单个人的姿势,而不适用于不在训练集中的其他人。

本文研究工作介绍

  • 视频到视频合成(vid2vid)是指将输入的语义视频转换为输出的真实感视频的任务。通常,要获得这样的模型,首先要收集目标任务的训练数据集。它可以是一组目标人物执行不同动作的视频,也可以是一组用安装在汽车上的摄像机在城市里行驶时拍摄到的街景视频。然后使用数据集训练一个模型,在测试时将新的输入语义视频转换为相应的照片级真实感视频。

  • 换言之,我们期望一个用于人类的vid2vid模型可以生成同一个人执行不在训练集中的新奇动作的视频,而一个街景vid2vid模型可以生成与训练集中相同风格的新颖街景视频。随着生成性对抗网络(GANs)框架及其图像条件扩展的发展,现有的vid2vid方法已经显示出了很好的效果。

  • 我们认为,归纳到新的输入语义视频是不够的。人们还应该致力于一个模型,它可以推广到看不见的领域,比如生成训练数据集中没有包含的人类受试者的视频。

  • 更理想的是,vid2vid模型应该能够通过利用测试时给出的几个示例图像来合成看不见域的视频。如果一个vid2vid模型不能推广到看不见的人或场景样式,那么我们必须为每个新的主题或场景样式训练一个模型。此外,如果一个vid2vid模型仅用几个示例图像就不能达到这种领域泛化能力,那么就必须为每个新的主题或场景样式采集多个图像。这将使模型不容易扩展。不幸的是,现有的vid2vid方法存在这些缺点,因为它们没有考虑到这种泛化。

为了解决这些局限性,本文提出了少镜头vid2vid框架。少镜头vid2vid框架需要两个输入来生成视频

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值