论文阅读理解 - Look into Person: Self-supervised Structure-sensitive Learning

Look into Person: Self-supervised Structure-sensitive Learning and A New Benchmark for Human Parsing

Code-Caffe

Paper

摘要—— 主要两部分:(1)建立Look into Person(LIP)数据集;(2)提出self-supervised structure-sensitive learning 方法,将人体姿态结果作为人体解析的额外监督(模型训练时不需要人工标注人体关节点).

1. LIP 数据集

这里写图片描述
几种不同的标注数据集. (1)ATR 数据集的图片是固定尺寸的(400*600),仅是室外站立的模特,电商图片类适应. (2) PASCAL-Person-Part 数据集的图片只有6种不同的语义标签,与人相关的也较粗糙. (3)LIP数据集多样性和复杂性更高.

LIP数据集:

  • 共 50462 张图片,19081 张fully-body图片,13672 张upper-body 图片,403 张lower-body 图片,3386 张 head-missed 图片,2788 张 back-view 图片,21028 张 occlutions 图片.
    这里写图片描述

  • 304562 张training 图片,10000 张 validation 图片,10000 test 图片.

  • 20 类语义标注(1 background + 19 labels)
    这里写图片描述

labels 顺序LIP提供的标注正确的标注正确的标注
0BackgroundBackground背景
1HatHat帽子
2HairHair头发
3SunglassesGlove手套
4Upper-clothesSunglass太阳镜
5DressUpper-clothes上衣
6CoatDress连衣裙
7SocksCoats外套
8PantsSocks袜子
9GlovePants裤子;短裤
10ScarfJumpsuits连衣裤
11SkirtScarf围巾
12JumpsuitsSkirt裙子
13FaceFace
14Right-armLeft-arm左胳膊
15Left-armRight-arm右胳膊
16Right-legLeft-leg左腿
17Left-legRight-leg右腿
18Right-shoeLeft-shoes左鞋
19Left-shoeRight-shoes右鞋

2. Self-supervised Structure-sensitive Learning

人体解析 —— 像素级语义标注

人体估计 —— 关节点结构预测

提出了自监督结构敏感损失函数来评价关节点结构引导的人体解析结果的效果.
这里写图片描述
Figure6. 方法图示. 输入图像经过网络卷积层处理生成解析结果. 通过计算人体解析图的对应区域的中心点,来得到的关节点和关节点的groundtruth的 heatmaps,9 个关节点分别为 head (H), upper body (U), lower body (L), right arm (RA), left arm (LA), right leg (RL), left leg (LL), right shoe(RS), left shoe (LS). 对 segmentation loss 和 joint structure loss的加权计算来得到 structure-sensitive loss.

给定图片 I I

定义关节点组合 CIP=cip|i[1,N],其中 cpi c i p 是根据人体解析图计算得到的第 i i 个关节点的 heatmap.

定义关节点组合 CIGT=cigt|i[1,N],是根据真实的groundtruth人体解析图计算得到的对应关节点 heatmap.

这里 N N 为根据输入图片 I 中人体来决定的关节点数. full-body 图片时, N=9 N = 9 . 如果关节点不存在,则设为0.

Joint structure loss:

LJoint=12NNi=1||cpicgti||22 L J o i n t = 1 2 N ∑ i = 1 N | | c i p − c i g t | | 2 2

Final structure-sensitive loss

LStructure=LJointLParsing L S t r u c t u r e = L J o i n t ⋅ L P a r s i n g

LParsing L P a r s i n g 是语义分割用的 逐像素 softmax loss(pixel-wise softmax loss).

3. Results

这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值