数据集HumanVid：第一个针对人体图像动画的大规模高质量数据集

最新推荐文章于 2025-04-23 21:22:33 发布

数据猎手小k

最新推荐文章于 2025-04-23 21:22:33 发布

阅读量1.2k

点赞数 23

文章标签：语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011559552/article/details/142111883

版权

2024-07-28 ,由香港中文大学、上海市人工智能实验室共同创建HumanVid，是一项创新的大规模高质量数据集，专为人体图像动画而设计，它通过结合精心挑选的现实世界视频和合成数据，为视频和电影制作领域带来了突破性的工具。

人类图像动画的任务目的：

在从单个图像生成连贯的人类视频。为了增强可控性，该领域的主流工作经常采用显式的人体骨骼表示。早期的解决方案主要是在 GAN 上开发的，用于图像动画和姿势传输。

最近，扩散模型在图像和视频中取得了显著的成功和高质量的结果，因此引起了人类图像动画的关注合成。

一、目前遇到困难和挑战：

1. 训练数据的不可访问性：

先前的方法依赖于私有数据集进行训练，这阻碍了公平和透明的基准测试。

2. 忽视相机运动：

作为视频和电影制作中的一个重要组成部分，摄像机视点移动决定了内容动态和观众的整体感觉。虽然许多工作专注于用结构信号引导视频生成模型，但在生成视频时控制相机的姿态/视点却很少受到关注。

数据集地址：HumanVid|视频动画数据集|3D建模数据集

二、HumanVid 数据集：

是一个高质量、大规模的数据集，专门为人类图像动画设计。

结合真实世界和合成数据：数据集包括从互联网上收集的 20,000 个无版权的 1080P 分辨率真实世界视频，以及 2,300 个无版权的 3D 头像资产，这增加了数据集的多样性和质量。

三、数据集构建：

合成视频数据通过一个或多个角色使用不同的摄像机轨迹在各种 3D 场景中移动来渲染。因此，构建合成数据涉及三个关键步骤：角色创建、运动重定向以及 3D 场景和摄像机放置。

1、角色创建：

人体角色：使用 SMPL-X 模型和服装来创建类似真人的角色。这些角色的身体形状、皮肤纹理、3D 服装和纹理都是多样化的，以实现高度逼真的人类表示。
动漫角色：从 VRoidHub 平台手动选择了2,387个角色，这些角色具有多样化的外观、服装风格和发型。

2、动作重定向：

人体角色动作：通过从大规模动作捕捉数据集中采样，将人类动作转移到 SMPL-X 角色上。动作的多样性通过基于运动注释的采样来增强。
动漫角色动作：使用自动重定向软件将现有动作转移到动漫角色资产上。动漫角色的服装和头发也被视为身体的一部分，因此它们的运动也由源动作决定。

3、3D 场景和相机布局：

3D 场景：使用约100张全景 HDRI 图像或高质量的 3D 场景构建真实感和多样性的 3D 场景背景，涵盖室内和室外环境。
相机轨迹设计：与现有数据集不同，该数据集强调了人类中心视频中丰富和多样化的相机轨迹。每个相机轨迹由一系列 6-DoF（六度自由度）的平移和旋转组成。通过精心设计的基于规则的相机运动生成管道，获得了多样化的轨迹。

建立基线模型 CamAnimate：

提出了一个名为 CamAnimate 的基线模型，它考虑了人体和相机运动作为条件，通过在 HumanVid 数据集上的简单基线训练，实现了对人物姿势和相机运动的先进控制，为该领域树立了新的基准。

HumanVid 数据集不仅提高了视频生成的视觉质量和控制性，还为相机控制的人体图像动画提供了一个公正和透明的评估基准。此外，这个数据集的公开可用性，将促进未来研究和应用的发展。

让我们看一下HumanVid数据集应用：

比如我是一个电影制作人，哎呀，你是不知道，我之前在视频制作上遇到的事儿可真不少。比如说，我得拍一段儿古代战场上的打斗戏，光是搭景就得花上个把月，还要找一堆群众演员，更别说那复杂的摄影机轨道和吊臂了。有时候，一个镜头要拍上几十遍，演员都累趴下了，效果还不一定满意。

但现在呢，有了HumanVid这个神奇的数据集。

我可以轻松地控制角色的动作，还有摄影机的运动，就像玩视频游戏那样简单。

比如说，我可以瞬间把摄影机从战场的这一头移到那一头，从高空俯瞰整个战场，或者来个特写捕捉战士的表情。所有的这一切，都不需要我亲自去调整摄像机或者重新布景。

偷偷告诉你，HumanVid数据集还提供了大量的合成数据和精确的相机运动注释，这意味着我可以生成各种复杂场景，比如让角色在虚拟的古代宫殿中行走，或者在战场上策马奔腾，而且这些画面看起来就跟真的一样。

最棒的是，我可以把这些动画直接放到电影里，或者用在游戏的预告片中，甚至做成虚拟现实体验。这不仅大大节省了我的时间和成本，还让我的创意不再受限于现实条件。

哦耶，我感觉自己的制作能力一下子飞跃了好几个档次，真是太给力了！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。