SimCC

Kris_u

已于 2024-09-11 15:40:50 修改

阅读量229

点赞数 3

文章标签：计算机视觉

于 2024-09-11 12:42:59 首次发布

本文链接：https://blog.csdn.net/qq_33690342/article/details/142136377

版权

Backbone

Given an input image of size $H\times W\times 3$ , SimCC employs either CNNbased

or Transformer-based network (e.g., HRNet [29], TokenPose [18]) as the

backbone to extract n keypoint representations for n corresponding keypoints.

Head

As shown in Fig. 2, horizontal and vertical classifiers (i.e., only one linear

layer for each classifier) are appended after the backbone to perform coordinate

classification, respectively. For the CNN-based backbone, we simply flatten the

outputted keypoint representations from (n,H′,W′) to (n,H′ x W′) for classification.

创新点：

坐标分类视角：SimCC将人体姿态估计（HPE）问题重新定义为水平和垂直坐标的两个分类任务，与传统的基于2D热图的方法不同。
子像素级定位精度：通过将每个像素均匀划分为多个bin，SimCC实现了子像素级的定位精度，从而降低了量化误差。
简化的模型结构：SimCC省去了昂贵的上采样层和后处理步骤，使得模型结构更简单，更适用于实际应用。

模型组成和原理：

主干网络：SimCC使用卷积神经网络（CNN）或基于Transformer的主干网络来提取关键点表示。
坐标分类头：在主干网络的基础上，SimCC添加了两个分类头（每个头只有一个线性层），分别独立地对水平和垂直坐标进行分类，以产生最终的预测结果。
量化误差降低：SimCC通过将每个像素划分为多个bin来减少量化误差，从而提高了定位精度。
标签平滑：为了提高模型性能，SimCC采用了标签平滑技术，以增强模型的泛化能力。

局限性：

多人体姿态估计：SimCC主要在自顶向下的人体姿态估计设置中工作，对于自底向上的多人姿态估计，由于存在多个人体，会带来识别的歧义。
未来工作：论文提出，未来的工作可以探索在SimCC中引入额外的嵌入，类似于AE（Associative Embedding）方法，以解决候选坐标x和y值之间的匹配问题。

SimCC（Simple Coordinate Classification）的核心思想是将人体关键点的位置估计问题分解为两个独立的分类问题：一个是水平坐标（x坐标）的分类，另一个是垂直坐标（y坐标）的分类。在数学上，这可以通过以下步骤来实现：

Label smoothing

Label smoothing 是一种在深度学习中用于分类任务的技术，特别是在目标检测和关键点估计等任务中。它旨在提高模型的泛化能力，减少过拟合，并提高模型对未见数据的鲁棒性。Label smoothing 通过修改标签的表示方式，将传统的“硬”标签（即标准的0和1标签）转换为“软”标签，这些标签表示类别成员关系的不确定性。