Look into Person (LIP) 是一个新的大规模数据集,专注于人的语义理解。 以下是详细说明。
1.1 Volume
该数据集包含 50,000 张图像,带有精细的逐像素注释,带有 19 个语义人体部位标签和带有 16 个关键点的 2D 人体姿势。
1.2 Diversity
标注的 50,000 张图像是从 COCO 数据集中裁剪的人实例,大小大于 50 * 50。从现实世界场景中收集的图像包含具有挑战性姿势和视图、严重遮挡、各种外观和低分辨率的人类外观。 我们正在努力收集和注释更多图像以增加多样性。
Data Collection
我们将图像分为三组。 训练集30462张,验证集10000张,测试集10000张。
此外,我们在“使用上下文化卷积神经网络进行人类解析”中提到了另一个大型数据集。 ICCV'15,专注于时尚形象。 您可以下载包含 17000 张图像的数据集作为额外的训练数据。
Single Person
我们将图像分为三组。训练集30462张,验证集10000张,测试集10000张。
此外,我们在“使用上下文化卷积神经网络进行人类解析”中提到了另一个大型数据集。 ICCV'15,专注于时尚形象。您可以下载包含 17000 张图像的数据集作为额外的训练数据。
Multi-Person
为了激发多人解析研究,我们收集了具有多人实例的图像,以建立实例级人类解析的第一个标准和综合基准。我们的 Crowd Instance-level Human Parsing Dataset (CIHP) 包含 28280 张训练图像、5000 张验证图像和 5000 张测试图像,其中总共有 38280 张多人图像。
Video Multi-Person Human Parsing
VIP(Video instance-level Parsing)数据集,第一个视频多人解析基准,由404个视频组成,涵盖各种场景。对于每个视频中的每 25 个连续帧,有一个帧被密集注释,带有像素级语义部分类别和实例级识别。总共有21247张密集注释的图像。我们将这 404 个序列分为 304 个训练序列、50 个验证序列和 50 个测试序列。
VIP_Fine:训练集和验证集的所有带注释的图像和精细注释。
VIP_Sequence:围绕每个 VIP_Fine 图像的 20 帧 (-10 | +10)。
VIP_Videos:VIP 数据集的 404 个视频序列。
Image-based Multi-pose Virtual Try On
MPV(Multi-Pose Virtual try on)数据集,包含 35,687/13,524 个人/衣服图像,分辨率为 256x192。每个人都有不同的姿势。我们将它们分别分成训练/测试集 52,236/10,544 个三元组。https://www.payititi.com/opendatasets/show-28.html