Weakly and Semi Supervised Human Body Part Parsing via Pose-Guided Knowledge Transfer

weixin_42881607

于 2019-06-29 13:54:51 发布

阅读量281

点赞数

分类专栏：人体语义解析

人体语义解析专栏收录该内容

0 篇文章 0 订阅

订阅专栏

论文的核心思想是利用人体的解剖相似性，将一个人的解析结果传递给另一个姿势相似的人。由于生理解剖学的限制，具有相同姿势的人也将具有相似的形态，从而可以根据姿态的相似性，将目标行人迁移到已经标注好的具有相同姿态的行人上进行解析。

1、背景

为了更加精细地对人的行为进行分析，关键的一点就是能够将人体的各个部分分割出来。但是这个问题很难，因为让人去标注这些数据（一个部分一个部分地画出来）是非常困难的；也正是因为这样，目前这方面最大的数据集也只有少于 2000 个用于训练的标注数据。那么最好的方法就是让机器能够自动且有效地标记出这样的 label。

2、思路

Human Parsing 只有极少的标注数据，而另一方面人体关键点（人体姿态）由于标注比较轻松，所以目前有非常多的标注数据。所以卢策吾团队就考虑是否可以利用人体姿态的数据，通过知识迁移来帮助自动地完成人体部分分割标注的任务。
在这里插入图片描述
思路就是，将带有关键点的图像与已有的少量标注过的 human body part parsing 数据集通过关键点的相似性进行临近搜索，然后以姿态作为指导进行知识迁移，从而实现人体部分分割的标注。

3、方法

在这里插入图片描述
具体的方法共分为三步：输入带有关键点的图片+已有的部分分割数据集，首先根据关键点进行聚类，也即找到与输入图片相似的标注分割图片；然后进行对齐、变形，从而完成对输入图片的分割；这时候的结果存在很大的误差，最后一步则是进行精细化调整。

Discovering Pose-similar Cluster

为了度量不同姿态间的相似度，首先需要对所有的姿态进行归一化和对齐，即将身高统一，臀部关键点作为坐标原点。由此计算出输入图片中几个关键点与标注数据集中所有图片的对应关键点之间的欧氏距离，选出距离最小的 Top n 作为 similar cluster。

这里之所以选择 top n，而不是 top 1，是因为真实的人体千奇百怪（例如存在遮挡），某一个人体的分割不一定能够适用于另一个人体，所以要选择最相似的几个，在下一步生成 part-level prior 中做下平均。

Generating Part-level Prior

在这里插入图片描述

依据上面找到的 similar cluster，然后基于关键点即可以将已知的分割映射到图像上。这里 cluster 中每一个身体的部分都有 binary mask，将所有这些部分分别进行求平均，便得到了 bady part parsing。

Prior Refinement

在这里插入图片描述

前面通过迁移得到的 morphed part parsing result 可能与真实的 parsing 之间有些微的差别，且由于求平均会有阴影的存在，因此通过 refinement network 进一步进行调整。Refinement Network 采用的是 U-Net 的一个变体。

4、实验

首先来看未经过 refine 和经过 refine 后的结果对比
在这里插入图片描述

从左到右分别为：输入图像、完全卷积网络预测的结果、输入图像相关的 part-level prior、经过 refinement network 预测出的结果。可以看出 refine 后的结果有相当好的表现。

实验验证，这种方法不仅能够用在单人的图像上，还能够对多人图像进行分割。如下图所示：
在这里插入图片描述

weixin_42881607

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Weakly and Semi Supervised Human Body Part Parsing via Pose-Guided Knowledge Transfer

论文的核心思想是利用人体的解剖相似性，将一个人的解析结果传递给另一个姿势相似的人。1、背景为了更加精细地对人的行为进行分析，关键的一点就是能够将人体的各个部分分割出来。但是这个问题很难，因为让人去标注这些数据（一个部分一个部分地画出来）是非常困难的；也正是因为这样，目前这方面最大的数据集也只有少于 2000 个用于训练的标注数据。那么最好的方法就是让机器能够自动且有效地标记出这样的 label...
复制链接

扫一扫