计算机视觉: 可控的高质量人体生成

本文介绍了基于自回归模型的COMODO,一种允许用户实时控制动作生成的模型,通过randomsampling、conditionalinpainting和policy-basedcontrolling三种输入模式提高多样性和灵活性。该模型通过噪声重建和控制信号的加入,实现与环境的交互,预示着未来细粒度动作控制和跨模型融合的发展方向。
摘要由CSDN通过智能技术生成

背景

关于人体动作的生成范式目前主流的方向可以分为以下两种:

  • Sequence based motion generation: 给定控制信号然后一次性生成连续的动作,能生成一些连续高阶语义的动作信号,因为其能看到整个动作信号。eg: MDM: Human Motion Diffusion Model, Tevet, et al, ICLR 2023
  • Auto-regression based motion generation: 由T帧的环境和状态去预测T+1帧的状态,这样用户能在中途去随时的改变输入信号,从而便于用户去交互去改变输出的状态。eg : Synthesizing Physical Character-Scene Interactions, Hassan et al. SIGGRAPH 2023

针对上面的两种范式的特点,在实际应用过程中,作者认为第二种范式会更加友好的方便用户去控制动作的生成或者说人的状态,以便后续生成的动作与环境做交互。基于此,本篇论文也是基于自回归模型范式。



COMODO: Online Controlled MDM model

作者提出COMODO自回归模型,它通过对可实时改变对基模型输入动作信号从而实现得到高质量的可控的动作,其输入的信号有三种模式分别是random sampling(生模模型随机采样无控制信号输入) / conditional inpainting(例如控制其动作的范围,只能在下图红线上做动作生成) / policy-based controlling (去改变一些点或者说是指定手或者脚的动作),最终实现整个流程。COMODO主要有3点贡献:

  1. 更好的多样性
  2. 更加灵活,方便用户随时改变输入信号做交互
  3. 更加高质量的结果

在这里插入图片描述


COMODO模型大致流程如下图,其可以大致分为三步:

  1. Noise Reconstruction : 标准的DDPM的噪声重建过程
  2. Step Inference: 通过推理多帧得到当前时刻的模型
  3. Motion Synthesis: 将基础模型与引入的前文说明的控制信号所结合生成最终的动作

在这里插入图片描述




简单来说,在推理过程中,当人工加入了控制信号后,controlled就会将这些信号转化为噪声信号加入到扩散模型的生成过程种,从而改变最终的生成动作结果。并且由于是将控制信号转换成噪声信号引入扩散过程,这个过程有一定的随机性,所以导致最终生成的动作可以产生多样性。

在这里插入图片描述

未来方向

  1. 细粒度可控制的动作生成
  2. 将生成的动作与真实(虚拟)世界的交互
  3. 大语言模型与动作生成模型的结合
  4. 其他

在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

曼城周杰伦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值