大连理工大学出的一篇基于bottom-up方法的多人人体姿态估计。整体思路和SPM很像,主要有以下几点不同:
-
没有像SPM那样预先定义好的人体多级连接结构,而是类似于centernet一样,直接从一个中心点回归所有的pose offset
-
中心点不仅仅是一个点,而是位于人体中心的一块区域。人体中心不再是通过box的中心确定,而是通过人体姿态组成的最小box来确定,这样保证中心点更合理,如图绿色框所示
-
训练时是用了个refine module来进一步优化pose,送进refine module的是通过OKSFilter过滤init pose得到。OKSFilter是计算init pose的每个pose的oks值,取最大的几个来送进去refine module(这一块我没很看懂具体操作,是根据gt来选取和gt数量一直的pose还是固定几个)
-
提出了类似FCOS centerness结构的PSM module。其实就是每个pose的oks值和classfication值相乘得到,进一步约束最终得到的结果。
PS:感觉还是centernet那种直接回归的pose的思路更直接,还可以和detection一起做