BigGait: Learning Gait Representation You Want by Large Vision Models阅读笔记

最新推荐文章于 2024-11-12 11:47:35 发布

别码了W哥

最新推荐文章于 2024-11-12 11:47:35 发布

阅读量850

点赞数 18

文章标签：笔记人工智能深度学习机器学习

本文链接：https://blog.csdn.net/Leon_____/article/details/136710532

版权

文章提出了一种名为BigGait的新框架，利用LVM生成的多用途知识和无监督方法，通过GRE转换步态序列图，实现了高效的步态表征。在self-domain和cross-domain任务上达到SOTA性能，尤其在减少背景噪声和提高泛化性方面有所突破。

摘要由CSDN通过智能技术生成

于老师团队又有新作！！

现有的步态识别任务严重依赖上游任务所使用的多种显示步态表征（剪影图、姿态图、点云…），会导致严高额标注成本以及累计错误；
文章提出了BigGait框架：
- 挖掘基于多用途知识（all-purpose knowledge）的高效步态表征；
- GRE（Gait Representation Extractor）将步态序列图通过无监督方式转化为隐式步态特征；
- 在大部分的self-domain和cross-domain任务上取得sota。

目前，多数步态识别的方法有以下流程：
- 首先使用上游模型对RGB的人体步态序列进行过滤，目的是去除无关背景等的影响；
- 其次使用一些归纳偏置对步态表征进行精炼，例如size alignment、coordinate normalization；
与以往的方式不同，文章基于Large Vision Models产生的task-agnostic knowledge隐式地构建步态表征，这受启发于：
- LVM产生的多用途特征具有强大的判别性和泛化性；
- LVM的自监督预训练避免了对特定任务的上游模型对使用，从而需不要昂贵的数据标注成本；
- LVM的预训练式来自于web-scale data（任务无关），避免了上游任务的错误累积。
文章提出的BigGait框架主要包括以下组成部分：
- 以DINOv2作为任务无关的上游模型；
- 以GaitBase作为下游模型；
- 为了链接上下游模型，将多用途特征转化为有效的步态特征，提出了GRE作为链接：
  - Mask Branch：自主推断前景信息（人体步态），过滤背景信息的影响；
  - Appearance Branch：该分支直接来自于DINOv2的特征，其会引入纹理相关的特征，这对于步态识别来说是一种噪声；
  - Denoising Branch：沿空间维度引入平滑度约束（soft constraints），以减少高频纹理特征，更好保留步态特征。

…

[图片]

Mask Branch：不仅去除背景的影响，同时让前景信息足够diverse和discriminative
- m是一个双通道特征，模型选择激活更多位于图像中心的通道作为前景遮罩；
- 采用二值化和闭操作减少潜在的空腔和断点（前景遮罩的质量更好）；
Appearance Branch：步态模型倾向于强调明显不变的步态无关线索，而不是微妙的步态模式
- Eap：通道卷积操作
- fap保留了外观特征，对于步态识别用处不大，因此需要去噪
Denoising Branch：过滤无关特征，捕捉相关特征
- smooth-loss，索贝尔算子，用于消除明显的高频信息，例如服饰图案和明显的条纹信息：
- 单纯依靠索贝尔算子会造成像素特征过于相似从而失去多样性，为解决这个问题引入了基于信息熵的额外多样性损失（信息熵减少，维持通道特征多样性）：

挑战：
- 可解释性：本文方法与由清晰直观的物理属性定义的传统步态表示相比可解释性不足；
- 纯度：在直接将RGB视频作为输入的步态方法中，反复出现的挑战涉及在步行序列中有效减少与步态无关的噪音。当试图在没有明确监督的情况下在基于LVM的步态识别中保持步态特征的纯度时（即没有mask或者本文介绍的约束进行辅助的时候），这项任务变得更加艰巨。
本文局限性：
- 不同的上游LVM对BigGait的影响只是初步探讨。这个问题值得持续研究；
- GRE模块缺乏时空设计。