Zero-Shot Learning学习笔记 -- CVPR_2022_MSDN: Mutually Semantic Distillation Network for Zero-Shot Learn

最新推荐文章于 2023-12-19 09:30:23 发布

风风风风挽丶

最新推荐文章于 2023-12-19 09:30:23 发布

阅读量830

点赞数 3

本文链接：https://blog.csdn.net/bywl_zts/article/details/126695851

版权

零样本学习语义蒸馏双向注意力视觉特征属性表示

关键词由CSDN通过智能技术生成

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

动机与主要知识点介绍

动机：
在这里插入图片描述

先前的ZSL学习要么简单地将图像的全局特征与其相关的类语义向量对齐，要么利用单向注意力来学习有限的潜在语义表示。以上操作，没有有效的发现内在语义视觉特征和属性特征。说白了，以前的方法仅仅是简单地单向运用了全局的注意力机制，没有发现到网络真正注意到的属性部分，例如斑马的条纹属性，鸟的翅膀属性等等。
在这里插入图片描述

因此，提出了一个名为 Mutually Semantic Distillation Network (MSDN) 的网络，目的就是为了蒸馏视觉与语义特征之前内在的语义表示。由两部分组成：一是attribute →visual attention sub-net，学习基于属性的视觉特征；二是visual →attribute attention sub-net，学习基于视觉的属性特征。然后提出了一个蒸馏损失，可以两部分子网络相互矫正与学习。

网络结构

Attribute→Visual Attention Sub-net

输入：(1) 图像的视觉特征集合 $V=\left\{v_1, \ldots, v_R\right\}$ ，每个视觉特征编码图像中的一个区域（2）语义特征向量集合 $A=\left\{a_1, \ldots, a_K\right\}$ 。

关注每个属性的图像区域，并将每个属性与相应的关注视觉区域特征进行比较，以确定每个属性的重要性。对于第 k 个属性，对应图像的第 r 个区域的注意力权重定义为： $\beta_k^r=\frac{\exp \left(a_k^{\top} W_1 v_r\right)}{\sum_{k=1}^K \exp \left(a_k^{\top} W_1 v_r\right)}$ ，其中 W1 是一个可学习的矩阵，用于计算每个区域的视觉特征并衡量每个语义属性向量之间的相似度。由此，得到一组注意力权重 $\left\{\beta_k^r\right\}_{r=1}^R$ 。然后，基于注意力权重，提取基于属性的视觉特征 $F_k=\sum_{r=1}^R \beta_k^r v_r$ 。在获取特征图集合F之后，这里要引入一个映射函数 $\mathcal{M}_1$ ，将它们映射到语义嵌入空间。为了更加精确，这里引入了语义属性向量集合 $A=\left\{a_1, a_2, \cdots, a_K\right\}$ ， $\mathcal{M}_1$ 将基于属性的视觉特征 $F_k$ 与 $a_k$ 相匹配。于是公式表示为： $\psi_k=\mathcal{M}_1\left(F_k\right)=a_k^{\top} W_2 F_k$ ，这里 $\psi_k$ 是一个属性得分，表示在给定图像中具有第 k 个属性的置信度。