Graph-propagation based Correlation Learning for Weakly Supervised Fine-grained Image Classification

最新推荐文章于 2023-02-27 14:57:43 发布

WangKingJ

最新推荐文章于 2023-02-27 14:57:43 发布

阅读量1.8k

点赞数 1

分类专栏： ML 计算机视觉文章标签：人工智能图像识别计算机视觉

本文链接：https://blog.csdn.net/wangkingj/article/details/105580726

版权

计算机视觉同时被 2 个专栏收录

30 篇文章 4 订阅

订阅专栏

23 篇文章 3 订阅

订阅专栏

文章提出了一个GCL模型，它主要的创新在于两个部分，其一是criss-cross graph propagation (CGP)，其二是correlation feature strengthening (CFS) ，CGP的目的是用来在区域的discriminative ability学习中，同时考虑全局图像级上下文和局部空间上下文。CFS的目的是用来探索区域特征向量之间的内部语义相关性，以获得更好的判别能力。
思维导图
在这里插入图片描述

Model

在这里插入图片描述

criss-cross graph propagation

CGP模块，用backbone对输入图像进行特征提取，得到 $M_0\in \Bbb{R}^{C\times H\times W}$ ,然后将其输入的CGP模块，整个的CGP模块的输出是
在这里插入图片描述
其中 $\mathcal{F}$ 包含节点表示，邻接矩阵的计算，图更新。CGP模块最终的输出是 $M_S\in \Bbb{R}^{C\times H\times W}$ 。

Node representation. node的产生是通过简单的卷积运算实现的，
在这里插入图片描述
$W_T$ 是一个随机初始化的，通过3个不同的 $f$ 计算得到最初的三个node的feature maps $M_G^1，M_G^2，M_G^3$ 。那么 $M_G$ 中的每一个在固定空间位置跨通道的 $V_T\in \Bbb{R}^{C\times 1\times 1}$ 在图像中都有一个对应的小区域。（我感觉就类似于感受野吧！！！不是很确定），将这个小区域作为 node representation。

Adjacent matrix computing. 在feature map $M_G^1,M_G^2$ 中，得到了 $W\times H$ 个 $\mathcal{C}$ 维的向量，在两个特征图之间用node vector 进行內积，得到邻接矩阵，用它来说明节点之间的相关程度。在 $M_G^1,M_G^2$ 中的 $p_1 ,p_2$ 之间的相关性示例如下，
在这里插入图片描述
$V_1^{p_1}，V_2^{p_2}$ 分别代表 $p_1,p_2$ node representation vectors。 $p_2$ 和 $p_1$ 不是随意的，它们之间有一定的约束，即他们必须处在同一行或同一列。因此在 $M_G^1$ 中的每个节点得到 $W + H - 1$ 个相关值，组织通道中的相对位移并获得输出相关矩阵 $M_C\in \Bbb{R}^{K\times H\times W}$ ，另 $K = W + H - 1$ ，然后 $M_C$ 层经过softmax层去产生邻接矩阵 $R\in \Bbb{R}^{K\times H\times W}$
在这里插入图片描述
$R^{ijk}$ 是第i行，第j列，第k个通道的相关权重系数。
$M_G^{3}\in \Bbb{R}^{C\times H\times W}$ 和邻接矩阵输入到更新操作

其中 $V_2^{wh}$ 是 $M_G^3$ 的第w行,第h列的节点， $(w, h)$ 在集合中 $[(i, 1), . . ., (i, H), (1, j), . . ., (W, j)]$ 。可以通过将其水平和垂直方向的节点与相应的相关权重系数 $R^{ijk}$ 进行组合来更新节点 $M^{ij}_U$ 。
与ResNet相似，采用残差学习
在这里插入图片描述
其中 $\alpha$ 是一个自适应权重参数，并逐渐学习为判别discriminative correlation features分配更多权重，它的范围是【0,1】，用这种方式， $M_S$ 聚合了原始输入特征和相关特征，以挑选出 more discriminative patches，然后将 $M_S$ 作为输入，提供给CGP的下一个迭代。

Discriminative Patch Samping. 为了使网络能够学习不同大小的discriminative regions，结合了特征金字塔的思想，从三种不同比例的feature map中产生patches
在这里插入图片描述
得到残差特征图 $M_S$ 之后，我们将其输入到由 $1\times 1\times N$ 和一个sigmoid函数 $\sigma$ 组成的discriminative response layer来学习discriminative probability maps $S\in \Bbb{R}^{N\times H\times W}$ ,来说明最后的discriminative regions对最终分类的影响， $N$ 是feature map中给定位置的default patches的数量。然后，为每一个default patch $p_{ijk}$ 分配一个discriminative probability value ，
在这里插入图片描述
其中 $t_x,t_y,t_w,t_h)$ 表示的是每一个patch的坐标， $s_{ijk}$ 是第 $i$ 行，第 $j$ 列，第 $k$ 个通道的discriminative probability value。最后网络根据概率值选择前M个patch，其中M为超参数。

Correlation Feature Strengthening

设计的这个模块就是来探索区域特征向量之间的内部语义相关性，以获得更好的判别能力。
Node representation and Adjacent matrix computing. 为了构建图来挖掘所选patches之间的相关性，我们从 $M$ 个patches中提取 $D$ 维特征向量作为 $M$ 个节点，输入到GCN网络中，然后就是邻接矩阵的计算，这个矩阵表示了节点之间的相关性，计算方式如下
在这里插入图片描述
$R_{ij}$ 表示两个节点 $n_i,n_j$ 之间的相关系数， $c_{ij}$ 是权重矩阵 $C\in \Bbb{R}^{M\times M}$ 中的相关权重系数，通过反向传播学习 $c_{ij}$ 来调整相关系数 $R_{ij}$ ，然后对邻接矩阵的每一行执行softmax，进行归一化操作，以确保连接到一个节点的所有边的总和等于1。
在这里插入图片描述
构造的相关图说明了所选patches之间的关系强度。
Graph updating. 将M个节点的特征表示 $N\in \Bbb{R}^{M\times D}$ 和对应的邻接矩阵 $A\in \Bbb{R}^{M\times M}$ 作为GCN网络的输入，来更新节点的特征为 $N^{'}\in \Bbb{R}^{M\times D^{'}}$ ，最终一层的GCN能够表示为
在这里插入图片描述
其中 $W\in \Bbb{R}^{D\times D^{'}}$ 是学习的权重参数， $h$ 是非线性函数（ReLu in the experiments）

Loss Function

设计了一个联合损失函数，来将CGP和CFS进行端到端的训练，包括basic fine-grained classification loss $\mathcal{L}_{cls}$ 、guided loss $\mathcal{L}_{gud}$ 、rank loss $\mathcal{L}_{rank}$ 和feature strengthening loss $\mathcal{L}_{fea}$

在这里插入图片描述
其中 $\lambda_1,\lambda_2,\lambda_3$ 是三个平衡的超参数，在实验验证后，将其设置为1.（emmmm 搞着一锤子干嘛）
使用X表示原始图像，定义 $P={P_1,P_)2,...,P_N}$ 和 $P^{'}={P_1^{'},P_2^{'},...,P_N^{'}}$ 分别为使用CFS和没有使用CFS的selected discriminative patches， $\mathcal{C}$ 是置信度函数，它反映了分类为正确类别的可能性， $S={S_1,S_2,...,S_N}$ 表示discriminative probability scores.
在这里插入图片描述
感觉最后的这个损失上限应该是M，因为将M个patch输入到后续的CFS中，

WangKingJ

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
7
评论
Graph-propagation based Correlation Learning for Weakly Supervised Fine-grained Image Classification

文章提出了一个GCL模型，它主要的创新在于两个部分，其一是criss-cross graph propagation (CGP)，其二是correlation feature strengthening (CFS) ，CGP的目的是用来在区域的discriminative ability学习中，同时考虑全局图像级上下文和局部空间上下文。CFS的目的是用来探索区域特征向量之间的内部语义相关性，以获得...
复制链接

扫一扫