人体解析任务
人体解析(human parsing),属于语义分割任务的子任务,旨在对人类图像进行像素级的是细粒度分割(例如,划分出身体部位和服装)。根据不同的场景,又可以分为单人人体解析(single-person human parsing)和多人人体解析(multi-person human parsing,或者 instance-level human parsing)。除此之外,按照处理媒介分类,还可以分为基于图像的人体解析和基于视频的人体解析。
对于人体解析任务,常用的度量指标包括 Pixel accuracy(%) , Mean accuracy(%), Mean IoU(%) 和 Frequency weighted IoU(%).
Look into Person数据集
Look into Person (LIP) 是一个大规模的人体语义解析数据集,它包括了带有像素级人体部位标注(19种人体部位类别)和2D姿势标注(16个关键点)的50000张图像。这50000张图像裁剪自COCO数据集中的人物实例,图像尺寸均大于50 * 50. 它们覆盖了真实世界的各种场景,包括姿势和视角的改变、严重的遮挡、变化的外观以及低分辨率。
实际上,该数据集可以分为四个部分,分别为:单人人体解析,多人人体解析,基于视频的多人人体解析,基于图像的虚拟试衣。可以从该数据集官网中得到下载链接(包括百度云盘和谷歌云盘链接)。
在这里我们主要讨论第一个部分,即单人人体解析数据集。它包括了19种类别标签加上背景标签,所以一共是20种类别:
- Background
- Hat
- Hair
- Glove
- Sunglasses
- Upper-clothes
- Dress
- Coat
- Socks
- Pants
- Jumpsuits
- Scarf
- Skirt
- Face
- Left-arm
- Right-arm
- Left-leg
- Right-leg
- Left-shoe
- Right-shoe
baseline代码分享
该baseline模型基于PSPNet,其中的特征提取主干可以选择resNet50、denseNet121、squeezeNet或者其它模型。
源码链接如下:
https://github.com/hyk1996/Single-Human-Parsing-LIP
如果觉得有帮助,欢迎star和fork,如果需要已经训练好的网络模型可以通过下面链接下载。
Baidu Drive (提取码:43cu)
实验结果和可视化如下:(可视化代码也包含在源码里了)