Self-Supervised 3D Hand Pose Estimation from monocular RGB via ContrastiveLearning 阅读笔记

基于对比学习的单眼RGB自监督三维手部姿态估计

摘要:

   我们提出了一种新的自监督方法用于三维手部姿态估计的结构化回归任务。对比学习利用未标记的数据进行表征学习,通过损失公式鼓励学习到的特征表征在任何图像变换下都是不变的。对于三维手姿估计,也需要对颜色抖动等外观变换具有不变性。然而,该任务需要在仿射变换(如旋转和平移)下的等方差。为了解决这个问题,我们提出了一个等变对比目标,并证明了它在3D手部姿态估计中的有效性。我们通过实验研究了不变和等变对比目标的影响,并表明学习等变特征可以更好地表示3D手部姿势估计任务。此外,我们展示了具有足够深度的标准ResNets,在额外的未标记数据上进行了训练,在FreiHAND上的PA-EPE中获得了高达14.5%的改进,从而在没有任何特定任务的情况下实现了最先进的性能。代码和模型可在https://ait.ethz.ch/projects/2021/PeCLR/上获得

动机:

  在RGB图像中估计3D手部关节的位置是一个具有挑战性的结构化回归问题,其困难来自背景、照明条件、手部外观的巨大多样性,以及由人手的高度自由度引起的自遮挡。注释的数据集涵盖了更大的多样性。

创新点:

本文首次研究了用于三维手部姿态估计的自监督表示学习技术。提出了一种姿态等变对比学习(PeCLR)方法。

1. 我们进行了对比学习的第一次调查,以有效地利用未标记的数据进行3D手姿估计。

2. 我们提出了一个对比学习目标,鼓励外观变换的不变性和几何变换的等变性。

3. 我们进行控制实验,以经验推导出性能最好的增强。

4. 我们的研究表明,该方法在半监督设置下实现了更好的标记效率,并且添加更多的未标记数据是有益的。

5. 我们的经验表明,我们提出的方法优于目前使用标准ResNet模型的更专业的最先进的方法。

1)编码器使用一种新的等变对比目标,以自监督的方式在大量未标记数据集上进行训练。II)预训练的编码器使用很少的标记数据进行微调。由此产生的网络在数据集上更加准确。

自监督:

对比学习是自我监督、任务独立学习的有力范例。对比学习的核心是一个来自距离度量学习的概念,如果一对数据以有意义的方式连接在一起,则鼓励它们在潜在空间中接近,

方法:

SimCLR

作为风头最盛的两大自监督对比学习工作,MoCo和SimCLR分别来自Facebook和Google,在MoCov1论文中有指出,自监督对比学习性能提升的关键和限制在于两点,正负样本对的规模大样本一致性,规模主要受限于GPU显存,让我们一个batch做到1024已经到极限了,样本一致性则是针对利用memory bank来扩充样本对导致的encoder历史版本不一致问题,MoCo正是针对这两点做出了改进使普通人在有限显存情况下也能提升自监督性能。而SimCLR实际上就属于第一类工作,但作为Google的工作,他们表示显存并不是个限制,我们有TPU,batch可以开到8192,所以也不需要MoCo那么麻烦了,Money is all you need。

关于MoCo跟SimCLR的对比部分这里不做过多赘述,有兴趣的同学建议看这个视频 ,保证获益匪浅。

简单来说,SimCLR采用了一种end-to-end的模式,将N张图片经过两种不同的数据增强T1和T2,得到2N张增强过的图片,于是对于每个样本I而言,都有1个正样本和2(N-1)个负样本,将这些样本送入encoder提取特征后再经过一个MLP投影到一个向量空间,通过NT-Xent(the Normalized Temperature-scaled Cross Entropy loss),将同类样本在向量空间中互相拉近,不同类样本相互远离。

Equivariant contrastive representations

对经过了几何变换的样本特征做逆变换,其他的正常进行自监督学习即可

3D Hand Pose Estimator

通过L1 loss来分别监督2D坐标和深度。

实验

实验部分,用ResNet50作为encoder,输入图片为128x128的单目RGB图片。

预训练阶段用LARS和ADAM,batch size取2048,学习率为4.5e-3。微调阶段用ADAM,学习率为5e-4。

由于自监督学习的数据增强选择会很大程度上影响模型性能,本文也从单个变换到多个变换组合递进的方式,探索了适合于手部姿态估计任务的数据增强集合。

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值