LIP数据集

最新推荐文章于 2024-10-30 19:17:19 发布

broad-sky

最新推荐文章于 2024-10-30 19:17:19 发布

阅读量2.4k

点赞数 1

分类专栏：数据文章标签：计算机视觉深度学习人工智能

原文链接：https://www.payititi.com/opendatasets/show-28.html

版权

数据专栏收录该内容

1 篇文章

订阅专栏

Look into Person (LIP) 是一个新的大规模数据集，专注于人的语义理解。以下是详细说明。

1.1 Volume

该数据集包含 50,000 张图像，带有精细的逐像素注释，带有 19 个语义人体部位标签和带有 16 个关键点的 2D 人体姿势。

1.2 Diversity

标注的 50,000 张图像是从 COCO 数据集中裁剪的人实例，大小大于 50 * 50。从现实世界场景中收集的图像包含具有挑战性姿势和视图、严重遮挡、各种外观和低分辨率的人类外观。我们正在努力收集和注释更多图像以增加多样性。

Data Collection

我们将图像分为三组。训练集30462张，验证集10000张，测试集10000张。

此外，我们在“使用上下文化卷积神经网络进行人类解析”中提到了另一个大型数据集。 ICCV'15，专注于时尚形象。您可以下载包含 17000 张图像的数据集作为额外的训练数据。

Single Person

我们将图像分为三组。训练集30462张，验证集10000张，测试集10000张。

Multi-Person

为了激发多人解析研究，我们收集了具有多人实例的图像，以建立实例级人类解析的第一个标准和综合基准。我们的 Crowd Instance-level Human Parsing Dataset (CIHP) 包含 28280 张训练图像、5000 张验证图像和 5000 张测试图像，其中总共有 38280 张多人图像。

Video Multi-Person Human Parsing

VIP（Video instance-level Parsing）数据集，第一个视频多人解析基准，由404个视频组成，涵盖各种场景。对于每个视频中的每 25 个连续帧，有一个帧被密集注释，带有像素级语义部分类别和实例级识别。总共有21247张密集注释的图像。我们将这 404 个序列分为 304 个训练序列、50 个验证序列和 50 个测试序列。

VIP_Fine：训练集和验证集的所有带注释的图像和精细注释。

VIP_Sequence：围绕每个 VIP_Fine 图像的 20 帧 (-10 | +10)。

VIP_Videos：VIP 数据集的 404 个视频序列。

Image-based Multi-pose Virtual Try On

MPV（Multi-Pose Virtual try on）数据集，包含 35,687/13,524 个人/衣服图像，分辨率为 256x192。每个人都有不同的姿势。我们将它们分别分成训练/测试集 52,236/10,544 个三元组。https://www.payititi.com/opendatasets/show-28.html