论文笔记：Hierarchical Contrast for Unsupervised Skeleton-based Action Representation Learning

UQI-LIUWJ

已于 2023-02-28 14:27:12 修改

阅读量546

点赞数

分类专栏：论文笔记文章标签：论文阅读人工智能机器学习

于 2023-02-28 14:19:36 首次发布

本文链接：https://blog.csdn.net/qq_40206371/article/details/129259541

版权

272 篇文章 66 订阅

订阅专栏

1 Intro

3D骨架识别问题
- 早期以完全监督的方式训练网络
  - ——>需要大量人工标注的骨架数据，花费昂贵，且很是费时
- 无监督的3D骨架表示学习在近年来被不断研究
  - 早期的无监督工作主要聚焦于生成式方法
    - 将3D骨架动作编码后，在不同的代理任务（比如骨架重构、骨架着色）的指导下解码，以达到学习特征表示的方法
    - 但这类方法效果有限
  - 性能更好、机制更简单的对比学习成为了近些年的主流
    - 通常将3D骨架动作表示为实例级别的特征（instance-level），然后进行实例之间的整体对比学习
这篇论文认为，3D骨架动作具有层次结构，如果仅使用实例级别的特征进行对比学习，效果可能是次优的
- 3D骨架动作作为序列，时间维度上可以看作帧 (frame) 的集合，空间维度上可以看作节点 (joint) 的集合。
- 同时帧或节点是基本元素，可以构建为更大粒度的元素，如片段 (clip) 或部件 (part)
论文提出用于无监督 3D 骨架动作表示学习的层级对比框架 HiCo
- HiCo 通过层级编码器网络将 3D 骨架动作序列编码为部件级 (part-level)、片段级 (clip-level)、域级 (domain-level)和实例级特征，并在这几个层次上分层地进行多级对比。

层级编码网络包括时间和空间两个分支，分别从时间域和空间域以多粒度方式编码得到多个特征。

从不同长度的片段中提取特征
给定T帧J个节点的3D骨架动作序列 $X \in R^{T\times J \times 3}$
- 首先将其重新排列成帧列表的形式 $X^c \in R^{T\times 3J}$ $V_n^c=Temporal\_Max\_Pooling(Seq2Seq(X_n^c))$
- 然后使用一个MLP，作为帧Embedding，将帧信息映射到高维空间
为了得到不同长度的 clip，这里使用下采样UDM (Unified Downsampling Module)
- 通过一维卷积加一维最大池化的可训练方式缩短序列长度
- 每一层UDM捕获各帧kernel size大小的时间维度信息
- 通过不断调用 UDM，就得到时间维度越来越短的序列
- 这样不同粒度 clip 包含不同时间尺度的信息，具有较强的互补性。
得到各个之后，使用 seq2seq 模型建模时间上的依赖关系，再通过时间维度上的最大池化将帧级特征聚合为视频级特征
对每个粒度的clip都计算相应的视频级特征，然后拼接起来，得到片段级特征

总的优化目标由底下几部分共同组成

关注