小样本学习下的Transformer：基于谱聚类层和标签代理学习

最新推荐文章于 2025-03-14 10:49:12 发布

PaperWeekly

最新推荐文章于 2025-03-14 10:49:12 发布

阅读量3k

点赞数 1

文章标签：网络 python 计算机视觉神经网络机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247575001&idx=2&sn=8e63058906d69418dd3fc86c84a6c2e4&chksm=96eb7a59a19cf34f4a9cd29121e7926b4fb166892c1bc20e608a7d23052b4c8c1850cc51814c&scene=126&&sessionid=0

版权

©作者 | 知乎用户Alicia

研究方向 | 小样本学习

论文标题：

Attribute Surrogates Learning and Spectral Tokens Pooling in Transformers for few-shot learning

论文链接：

https://arxiv.org/pdf/2203.09064.pdf

代码链接：

https://github.com/StomachCold/HCTransformers

Abstract & Conclusion

1.1 Abstract

目的：通过提高数据的有效性来解决 Transformer “数据饥渴”的问题，从而能够使用 Transformer 解决小样本问题。

创新点（如何提高数据的有效性）：主要有两个工作，一个是提出了 token 谱聚类层，作用是获取并利用图像内部结构来降低目标前景区域和背景噪声区域分界的模糊性（也就是让目标和噪声的边界更清晰）；第二个则是提出了一个标签代理学习方案，作用是充分利用图像-标签对的视觉信息而不是单一的标签视觉概念。

模型：HCTransformer，基于自监督学习框架 DINO，使用三组 Transformer 进行串联，两个 transformer 之间有一个 token 下采样层，同时采取标签代理学习方案来优化学习参数。

结果：在 4 个小样本的基准数据集上做了测试，在 5-way 1-shot 和 5-way 5-shot 上都以明显的优势超过了 DINO 基准模型，同时也超过了目前的 SOTA 模型。

1.2 conclusion

HCTransformer 旨在提高数据的有效性来解决小样本图像分类问题。尽管视觉 transformer 具有数据饥渴的特性，但我们在小样本学习问题上使用 transformer 取得了很好的结果。本文方法引入了一种隐性监督传播技术，通过可学习的标签代理隐性监督参数学习。我们提出了一个集成 patch token 的方案，它可以与 [cls] token 互补。此外，使用 token 谱聚类嵌入 transformer 的 token 之间的对象/场景布局和语义关系。HCTransfomer 不仅比 DINO 基准模型表现更好，而且在四个流行的基准数据集上以明显的优势胜过目前的 SOTA 模型。

Introduction & Related work

2.1 Introduction

ViT 在 CV 的很多任务上都表现很好，然而一些文献指出当训练数据不足时 ViT 模型性能就变得很低。本文研究了这样一个问题：当有标签的训练数据非常有限的情况下，使用 ViT 到底行得通吗？

既然有标注的图片有限，那么如何充分挖掘图像隐藏的信息，对其中的视觉概念有一个完整的描述就变得很重要。

本文希望提高数据的有效性以便在小样本图像分类上使用 ViT 模型。具体来说就是使用三组串联的 ViT 作为元特征提取器，每一组 ViT 在不同语义层面上对图像各区域的依赖性进行建模。每两个 ViT 之间有一个 token 谱聚类层进行下采样，将图像分割的语义信息传递给下一个 ViT。此外引入一个潜在的属性代理学习方案来学习视觉信息的稳定表征。

2.2 Related work

关于 tokens pooling：论文作者认为 ViT 模型关注的是整张图像的全局信息而忽略了局部区域的依赖关系，这才导致了 ViT “数据饥渴”的性质。后续有很多工作在解决这个问题。有一些方法通过将一个窗口内的 token 直接进行合并来减少 token 的数量，而 HCT 则允许 token 根据空间布局和语义相似性与相邻的 token 自适应合并。

关于监督 token：ViT 加入了一个 [cls] token 全局性地汇总所有 patch 的整体信息，只有这个 token 直接接收视觉信息。但是其他的 token 仍然拥有表达特殊模式的能力并可能协助最终的预测。一些文献提出移除 [cls] token，通过平均池化操作整合所有 token 的信息从而建立一个全局的 token。

LVViT 同时使用 [cls] token 和其他 token 的可能性，它利用 token 标记问题来重新定义分类任务。So-ViT 将二节协方差池化应用在视觉 token 上并与 [cls] 结合起来进行最终分类。本文方法与这两种方法直觉上相似，但是有着明显的区别。我们利用注意力机制挑选并最大限度地利用重要的 token。此外，我们假设融合的 token 与 [cls] token 并不共享特征空间，而是分别在各自的特征空间中对它们进行监督。

Model & Method

▲ figure 1. model architecture

3.1 preliminary

由于 HCT 是基于 DINO 架构的，所以首先来看看 DINO 的架构以及其中的 Multi- crop 策略。图 2 是自监督学习框架 DINO 的简单表示。和是输入图像的不同视图。teacher 网络和 student 网络架构相同但是参数不同。其中 student 网络的参数通过反向传播进行更新，而 teacher 网络的参数并不通过反向传播更新，（sg 表示 stop gradient，截断梯度的传播了）而是由 student 网络的参数通过指数移动平均得到。

▲ figure 2. illustrate DINO in the case of one single pair of views for simplicity

multi- crop：对于输入的每一张图片，通过增强和裁剪获取两个 global views ，和 m 个 local views，将这些 views 的集合记作 V。注意，这里的 teacher 网络只接收 global views，而 student 网络接收 local views 以及 teacher 网络没有接收的 global views。则 DINO 的目标函数为：