将图像作为点集学习ICLR2023

tzc_fly

已于 2023-03-10 13:26:33 修改

阅读量618

点赞数 1

分类专栏：论文阅读笔记文章标签：聚类人工智能

于 2023-03-10 13:10:38 首次发布

本文链接：https://blog.csdn.net/qq_40943760/article/details/129410549

版权

论文阅读笔记专栏收录该内容

79 篇文章 19 订阅

订阅专栏

文章介绍了ContextClusters（CoCs），这是一种新型的视觉特征提取方法，它将图像视为点集并通过聚类算法提取特征。CoCs不依赖卷积或注意力机制，而是依赖于空间交互的聚类，提供了可解释性和良好的泛化能力。这种方法在几个基准测试上的表现与ConvNets和ViT相当甚至更好，展示了在视觉领域的潜力。

摘要由CSDN通过智能技术生成

什么是图像，如何提取潜在特征？

卷积网络（Convolutional Networks）将图像视为矩形形状的组织像素，并通过局部区域中的卷积运算提取特征；Vision Transformer（ViT）将图像视为一系列patch，并通过全局范围内的注意力机制提取特征。还有一种更有前景的视觉特征提取方法，被称为Context Clusters（CoCs，上下文聚类）。上下文聚类（CoCs）将图像视为一组未组织的点，并通过简化的聚类算法提取特征。详细地，每个点包括原始特征（例如，颜色）和位置信息（例如，坐标），并且采用简化的聚类算法来分层地分组和提取深度特征。CoCs是无卷积和无注意力的，并且只依赖于空间交互的聚类算法。模型设计简单，实验表明CoCs通过聚类过程的可视化赋予了令人满意的可解释性。CoCs旨在为视觉领域提供一个新的视角，这可能也会在不同领域中具有广泛的应用，并展现出深刻的见解。即使不以SOTA性能为目标，COCs在几个基准测试上仍然取得了与ConvNets或ViT相当甚至更好的结果。

来自：Image as Set of Points

前置内容：新颖的特征提取器vision gnn

ViG的架构如下：
fig1
对于一张 $H\times W\times 3$ 的图像，我们将其导出 $N$ 个patch，通过变换得到每个patch为特征向量 $x_{i}\in R^{D}$ 。我们有 $X=[x_{1},...,x_{N}]$ 。这些patch被视为无序的节点集合 $V=[v_{1},...,v_{N}]$ 。对于节点 $v_{i}$ 可以找到 $K$ 近邻的邻居 $N(v_{i})$ ，并添加edge $e_{ji}\in E$ 代表从 $v_{j}\in N(v_{i})$ 指向 $v_{i}$ 。于是可以得到 $G = (V, E)$ 。将图像视为graph，使用GNN提取其表示。

图像的graph表示的优点包括：

graph是一种广义的数据结构，可以将网格（图像）和序列（语言）视为graph的特例；
graph比网格或序列更灵活地建模复杂对象，因为图像中的对象通常不是形状规则的正方形；
一个物体可以被视为多个part的组成（例如，人可以大致分为头部、上身、手臂和腿），graph结构可以构建这些part之间的连接；
GNN的高级研究可以转移到解决视觉任务。

从 $X\in R^{N\times D}$ 开始，GCN可以通过聚集来自其相邻节点的特征在节点之间交换信息。GCN定义为： $G'=F(G,W)=Update(Aggregate(G,W_{agg}),W_{update})$ 更具体地，聚合操作通过聚合相邻节点的特征来计算节点的表示，并且更新操作进一步合并聚合的特征： $x'_{i}=h(x_{i},g(x_{i},N(x_{i}),W_{agg}),W_{update})$ 其中，聚合操作采用更简单的无参数聚合： $g(\cdot)=x''_{i}=[x_{i},max(\left\{x_{j}-x_{i}|j\in N(x_{i})\right\})]$ $h(\cdot)=x'_{i}=x_{i}''W_{update}$ 更新操作也可以变成多头操作，聚合后的特征 $x_{i}''$ 被拆分为 $h$ 个head： $head^{1},...,head^{h}$ ，所有head被并行更新： $x'_{i}=[head^{1}W_{update}^{1},...,head^{h}W_{update}^{h}]$ 多头更新操作允许模型在多个表示子空间中更新信息，这有利于特征多样性。

简介

我们提取特征的方式在很大程度上取决于我们如何解释图像。卷积神经网络作为一种基本范式，近年来在计算机视觉领域占据主导地位，大大提高了各种视觉任务的性能。在方法上，卷积将图片概念化为矩形形式的排列像素集合，并以滑动窗口方式使用卷积提取局部特征。得益于一些重要的inductive bias，如一些局部的模式以及数据增强引入的旋转变换等，ConvNets变得高效和有效。最近，ViTs挑战了ConvNets在视觉领域的地位。Transformers将图像视为一系列patch，并使用全局范围自注意力操作自适应地交互融合patch中的信息。利用ViT，ConvNets中的固有inductive bias被放弃。

最近的研究表明，视觉社区有了巨大的改进，这主要建立在卷积或注意力之上（比如ConvNeXt，MAE）。同时，一些方法尝试将卷积和注意力结合在一起，这些方法在网格中扫描图像（依靠卷积），同时探索序列的相互关系（依靠注意力），考虑局部优先（卷积）而不牺牲全局的感受野（注意力）。虽然它们继承了两者的优点，并取得了更好的性能，但仍然局限于ConvNets和ViTs。作者认为，除了卷积和注意力之外，其他特征提取器也值得研究，而不是被引入追求SOTA改进的陷阱。

最近的研究表明，基于graph的特征提取是可行的（Vision GNN），因此，作者同样期待并提出一种新的特征提取范式，它可以提供一些新的见解，而不是渐进的性能改进。CoCs将图像视为一组points，并将points分组到簇。在每个簇中，将这些points聚集为一个center，然后自适应将center分配到所有points上。

fig2

训练基于图像分类的context cluster。将图像视为points，并为points的聚类采样 $c$ 个center。points的特征被聚合，并分配到cluster中。对于簇中心 $C_{i}$ ，首先聚合簇 $i$ 的所有points $\left\{x_{i}^{0},...,x_{i}^{n}\right\}$ ，然后将聚合结果动态分布到簇中的所有points。

具体来说，作者将每个像素视为一个具有颜色和位置信息的5维数据点。在某种意义上，这将图像转换为一组点云，并利用点云分析的方法用于图像视觉表示学习。这连接了图像和点云的表示，显示出强大的泛化能力。

通过将图像视为点的集合，CoCs对不同的数据域（如点云、RGBD图像等）具有很强的泛化应用能力。其次，CoCs提供了令人满意的可解释性。通过可视化每一层的聚类，可以明确地理解每一层的感知知识。

方法

首先描述Context Clusters管道，然后详细解释用于特征提取的Context Clusters操作，并建立Context Cluster architecture。
fig3

Context Cluster模块。使用Context cluster操作对一组数据点进行分组，然后在cluster中对这些点进行通讯，此后应用MLP做非线性映射。

Context Cluster管道

给定输入图像 $I\in R^{3\times w\times h}$ ，通过每个像素 $I_{i,j}$ 的二维坐标增强图像，其中每个像素的坐标被表示为 $[\frac{i}{w}-0.5,\frac{j}{h}-0.5]$ 。进一步研究位置编码技术以提高性能是可行的，目前这个设计是考虑到简单和实用。增强后的图像被转为点集 $P\in R^{5\times n}$ ，其中 $n=w\times h$ 为点的数量，每个点具有特征3D颜色和2D坐标。点是无序的。

遵循Conv的方法，使用Context Cluster block提取特征，下图是Context Cluster block组成的深度模型：
fig4

架构分为4个stage，给定一组点，上下文聚类逐步减少点的数量，提取深度特征。每个阶段都从Reducer开始，然后使用一系列Context Cluster block提取特征。

给定一组点 $P\in R^{5\times n}$ ，我们需要首先降低点数量，然后应用CoCs block提取特征。为了减少点的数量，我们在空间中均匀选择一些anchor points，并将最近的 $k$ 个points通过线性投影进行拼接融合。

有人可能会对如何在Points Reducer block和Context Cluster block中的anchor感到困惑。下面是详细解释。对于anchor和center，它们都是在空间中均匀生成的。为了更好地说明这一点，下图是说明案例。
fig5

在某种意义上，anchor用于减少点的数量，而center用于聚类。它们在设计上都是均匀分布的。在左侧，平均提出4个anchor（用蓝点blue point标记），每个anchor有4个邻居。在右侧，平均采样9个center（用红色块red block标记），因此可以得到9个不规则的簇。center的特征是通过平均它的 $k$ 个邻居来实现的。在该图中，在第二个center的蓝色大圆圈中显示了邻居。

上图左侧显示了16个points和4个anchor用于points reducer，每个anchor都考虑了它最近的4个邻居。所有邻居都沿着通道维度进行连接，并且使用FC层来降低维度数并融合信息。在减少点的数量后，我们会得到一组和anchors数量相同数目的新点。

上图右侧显示了由图像点集和相应的9个簇生成的9个中心（红色块）。生成的center的特征将通过平均 $k$ 个邻居来给出（对于第二个center，我们平均蓝色大圆圈中的9个点）。

为了分类，我们需要平均最后一个block输出的所有点，并使用FC层进行分类。对于下游密集预测任务，如检测和分割，我们需要在每个stage后按位置重新排列输出点，以满足大多数检测和分割头的需求。

Context Cluster操作

首先，将特征点分组成簇，然后对每个簇中的特征点进行聚合再回调。给定特征点集合 $P\in R^{n\times d}$ ，根据相似度将所有点分成几个组，每个点单独分配到一个簇中。

首先进行线性投影得到 $P_{s}$ 。在空间中均匀提出 $c$ 个center，平均其 $k$ 个最近的points作为center的特征。根据 $P_{s}$ 和center的结果计算pair-wise余弦相似度矩阵 $S\in R^{c\times n}$ 。由于每个点都包含特征和位置信息，在计算相似度时，我们隐式地突出显示点的距离（局部性）以及特征相似度。在此之后，我们将每个点分配到最相似的center，产生 $c$ 个簇。值得注意的是，每个簇可能有不同数量的点。在极端情况下，一些簇可能有0点，在这种情况下，它们是多余的。

我们根据与center的相似性动态聚合簇中的points。假设一个簇包含 $m$ 个points（ $P$ 的子集）， $m$ 个points与center的相似度为 $s\in R^{m}$ （ $S$ 的子集），我们把这些points映射到一个值空间 $P_{v}\in R^{m\times d'}$ 。center也被映射为 $v_{c}$ ，聚合的特征 $g\in R^{d'}$ 为： $g=\frac{1}{C}(v_{c}+\sum_{i=1}^{m}sig(\alpha s_{i}+\beta)v_{i}),C=1+\sum_{i=1}^{m}sig(\alpha s_{i}+\beta)$ 其中， $\alpha$ 和 $\beta$ 是可学习的标量（用于缩放相似性）， $sig(\cdot)$ 是sigmoid函数，用于将相似性映射到0-1。 $v_{i}$ 是 $P_{v}$ 中的第 $i$ 个point。

对于特征回调， $g$ 根据相似性自适应分配到簇中的每个点，通过这样做，点之间可以相互通信，并共享来自簇中所有点的特征，对于点 $p_{i}$ ，更新特征为： $p_{i}'=p_{i}+FC(sig(\alpha s_{i}+\beta)g)$ 其中， $FC$ 层用于将值空间的 $d^{'}$ 维度映射回到 $d$ 维。

结果

fig6

分别对ViT-B/16、ResNet50、CoC-M和CoC-T without region partition的激活图、类激活图（CAM）和聚类图进行可视化。从左到右绘制四个阶段中最后一个块的结果。对于ViT-B/16，选择 [第3，第6，第9，第12] 块，并显示cls-token的余弦注意力图。聚类图表明，CoCs能够将相似的上下文聚类在一起，并直观地告诉我们模型学习了什么。

fig7