财大气粗的商汤出的第一个全身关键点数据集,直接对COCO数据集进行了扩展,将脸上的68个点,躯干的23个点(body17+feet6),以及手的23个点全部进行了标注,并将label进行了开源,地址:https://github.com/jin-s13/COCO-WholeBody,果然是大佬风范,佩服三连~
除了很🐂的推出了第一个large-scale whole body pose dataset,还针对如何训练whole body pose提出了ZoomNet,网络结构如下所示:
因为face hand body三者的尺度信息在同一张图片上相差太大,因此如果使用一个网络直接输出这三个不同部位的结果当然是不够准确的。为了解决这个问题,并且能够end-to-end training,提出的ZoomNet相当于3个子网络的堆叠,训练及检测流程如下:
- 图片首先经过一个FeatureNet进行特征提取,并分别得到两个不同尺度的featuremap F1(1/2)和F2(1/4),后面的BodyNet FaceHead HandHead共用这一个FeatureNet,相当于检测任务里的Backbone
- BodyNet直接使用F2做输入,经过类似HrNet的结果进行特征提取后,要生成23个body kps及face/hand boxes。face/h