开源公告|MimicMotion发布

d0c25faf65b3939887f5f788380317ff.gif

643cfaf9490bfe86a49706f52c9e3052.png

业务背景

目前AI在图像生成领域已被广告客户广泛使用解决客户实际需求降低整体素材成本。视频类素材在广告投放中占比大客户对于AI视频的需求日渐强烈然而视频生成目前普遍存在可控性弱动态效果不真实输出时长短的问题。MimicMotion技术能通过参考人物的骨骼动作有效解决以上问题生成平滑高质量的人物动作视频从而解决广告客户对人物动作的需求。‍

社交行业-展示类动作 

教育行业-运动类动作 

电商行业-介绍类动作

依托MimicMotion技术以腾讯混元为基底的一站式AI广告创意平台——腾讯广告妙思现已上线【人物动作视频】功能。平台针对广告行业需求提供匹配热点、卖点等动作模板用户只需要上传一张人物正面站立图片选择所需动作模板即可生成用于广告投放的动作视频。

a75dcab7dd5fec993eb93f9a38ed2321.png

项目简介

cc55135d1832bff25525bd9d892118ca.png

c439de376d48a27b3307fb77e7845710.gif5b9ccc67d1a1c78f654890d343022e31.gif66f6227931c03a9cc7bcb9d15e693641.giff46438be3686b691441d259e66172bd0.gif4e1beaa883909b69081cdf3800b286ae.gif0e9688043200c1109b11031d024740d1.gif

近年来生成式人工智能在图像生成领域取得了重要进展催生了各种AIGC应用。然而视频生成仍面临着诸如视频长度有限、可控性弱或动态细节不够丰富度等多方面的挑战这些挑战阻碍了这项技术的应用和普及。因此本项目提出了一个名为MimicMotion的可控视频生成框架该框架可以通过提供参考人像及由骨骼序列表示的动作来产生平滑的高质量人体动作视频。与以往的方法相比MimicMotion具有以下几个亮点。首先通过引入了置信度感知的姿态引导信号大幅提升了帧间一致性使得产生的视频在时序上能够做到平滑自然。其次通过放大置信度感知的区域损失显著减少了图像失真使得局部画面如人体手部细节得到了大幅改善。最后通过结合扩散过程的渐进式潜在特征融合策略MimicMotion能够在有限的算力资源内生成无限长的视频同时保证画面连贯。大量的实验结果和用户调研表明MimicMotion在各种方面都显著优于以往的方法详细对比可参考项目主页及技术报告目前模型及配套代码均已开源。‍

//主要优势:

● 生成结果细节更清晰 (尤其是手部细节);

● 生成视频时序平滑度更好无明显闪烁;

● 能够生成长视频并且无明显跳变。

bf2315fdf12432eb9129bfe7f16992a7.png

架构设计

6bcf6ec7827d9d3e5e901bb84d020b05.png

图: MimicMotion模型架构设计概览

MimicMotion模型的核心结构是一个带有U-Net的隐空间视频扩散模型用于在隐空间中进行逐步去噪。输入视频帧的VAE编码器和相应的解码器用于获取去噪视频帧这些部分都加载了Stable Video Diffusion (SVD)预训练参数并将其冻结。VAE编码器独立地应用于输入视频的每一帧以及条件参考图像基于逐帧操作不考虑时间或跨帧交互。不同的是VAE解码器处理经过U-Net时空交互的隐特征。为了确保生成流畅的视频VAE解码器在空间层外加入了时间层以镜像VAE编码器的架构。

除了输入视频帧之外参考图像和姿态序列是模型的另外两个输入。参考图像通过两个独立的路径输入到扩散模型中。一个路径是将图像输入到U-Net的每个模块中。具体来说通过类似CLIP的视觉编码器提取图像特征并将其输入到每个U-Net模块的交叉注意力中以最终控制输出结果。另一个路径针对输入的隐特征。与原始视频帧类似输入的参考图像使用相同的冻结VAE编码器进行编码以在隐空间中获得其表示。然后单个参考图像的隐特征沿着时间维度复制以与输入视频帧的特征对齐。复制的隐参考图像与隐视频帧沿通道维度连接在一起然后一起输入到U-Net中进行扩散。

为了引入姿态的指导PoseNet被设计为一个可训练的模块用于提取输入姿态序列的特征它由多个卷积层实现。不使用VAE编码器的原因是姿态序列的像素值分布与VAE自编码器训练的普通图像不同。通过PoseNet提取姿态特征然后逐元素地添加到U-Net第一个卷积层的输出中。这样姿态指导的影响可以从去噪的一开始就发挥作用。

2f3b150d9ee7412dda9fab76baa48b54.png

结果展示

MimicMotion在生成多种形式的人体动作视频上均具有良好的结果包括半身动作、全身动作以及谈话动作视频。相比现有的开源方案如MagicPose、Moore-AnimateAnyone等;

MimicMotion具有以下几点优势:

1. 生成结果细节更加丰富且清晰包括人体手部细节;

2. 帧间连续性更加优秀画面无明显跳变;

3. 支持平滑的长视频生成。

6b95f89c820bd84f7e6fb3882d2c3933.png

图: 与其他方法的量化指标对比

在量化指标评估实验中MimicMotion相比现有开源方案MagicPose、Moore-AnimateAnyone以及MuseV在FID-VID及FVD测试指标上均取得了领先。

e63d0ead8aab92b454c748b55d59b320.png

图: 针对不同方案生成结果的用户调研结果

考虑生成结果对于用户的直观感受在由36位人员参与的用户调研中MimicMotion获得了75.5%以上的优胜率。

15e8c1d9ad67e98c1ec814e6761794bf.png

项目地址

● 官方网站:https://tencent.github.io/MimicMotion

● 代码仓库:https://github.com/Tencent/MimicMotion

● 论文地址: https://arxiv.org/abs/2406.19680

请给项目 一个 Star !

欢迎提出你的 issue 和 PR!

关注腾讯开源公众号

获取更多最新腾讯官方开源信息!

d9de55b2453771c6cdcab936092a54ce.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值