论文创新及观点2

big_matster

已于 2023-01-08 12:59:59 修改

阅读量683

点赞数

分类专栏：论文创新及观点文章标签：人工智能深度学习计算机视觉

于 2023-01-08 12:54:44 首次发布

本文链接：https://blog.csdn.net/kuxingseng123/article/details/128599432

版权

论文创新及观点专栏收录该内容

19 篇文章

订阅专栏

题目

Zero-Shot Visual Recognition using Semantics-Preserving Adversarial Embedding Networks

摘要

基于visual-semantic embedding，的ZSL方法存在信息损失(semantic loss),的问题，在训练过程中，如果某些语义信息对分类的区分性不大，则会被丢弃，但是这些信息往往对识别unseen class很重要，
为了避免semantic loss，我们提出Semantic-Preserving Adversial Embedding Network(SP-AEN), 通过引入visual-to-semantic space embedder,将语义空间分解成两个子空间，分别进行分类和重构任务，（可以认为两个互相冲突的任务），通过对这两个子空间进行对抗学习，SP-AEN，可以将语义信息从重构子空间迁移到判别子空间。从而改进对unseen class的识别效果，与先前的方法相比，SP-AEN不仅可以提升识别效果，还能生成图像，验证了语义信息保留的有效性。
Note:该方法仍然是visual-semantic embedding方法。

Motivation

基于visual semantic embedding,的ZSL方法的语义迁移能力，受限于semantic loss问题，训练阶段，丢弃低方差信息，（判别信息较少）对分类有利，但是由于seen class 和unseen class 之间的语义差异，这些信息在测试时，对于unseen class ,往往具有较强的判别性，这将导致对不可见类别的语义信息的损失。主要原因是虽然class embedding具有丰富的语义信息，但其只是语义空间中的一个点，图像映射（将视觉空间映射到语义空间）就会坍塌这一点。
可以利用重构（由某个图像得到的语义向量能够映射回这个图像）来保留语义信息，那么其中任意两个语义向量，（由两个图像映射得到）需要保留足够的语义信息才能将其分离开，（这样就能避免了映射坍塌到一点），否则不能重构，然而分类和重构本质上是两个相互冲突的任务：重构希望能够保留图像的细节信息，而分类则抑制无关信息，下面的例子具体说明:
在这里插入图片描述

为了解决这个冲突，提出新的Visual semantic embedding框架，SP-AEN。如果2,引入了一个新的映射， Visual-to-semantc space embedder.
$\rightarrow S$ 和判别器 $D$ 来区分 $F (x)$ ， $E (x)$
引入 $F, D$ 来帮助 $E$ 保留语义信息。

语义迁移

基于映射 $E$ 发生了semantic loss，可以利用 $F$ 从其他类别 $E (x)$
中弥补信息，而且判别器 $D$ ,会使得 $F (x)$ 和 $E (x)$ 趋于相同分布,从而从 $F (x)$ 迁移语义到 $E (x)$ 中，例如， $E (bi r d)$ 丢失了spotty属性信息，可以通过 $E (l e a p a r d)$ 补偿，因为spotty是leapard类别中具有强判别能力的属性，会被保留。

分离和分类重构任务

重构由 $F, G$ 来实现，分类由 $E$ 实现，
这样，约束 $G (E (x)) \approx x, G (E (x ’)) \approx x ’$ 就被 $G (F (x)) \approx x, G (F (x ’)) \approx x ’$ ,替代， $F (x) 、 F (x ‘)$ 不需要很接近，（ $x 、 x ’$ ,来两个相似的类别，分类任务要求 $E (x), E (x ‘)$ 接近，导致重构效果不好），从而解决分类和重构的冲突，此外 $G (F (x))$ 还能用来生成图像，验证了语义信息被更好的保留

Method

在这里插入图片描述

Classfication

利用基于最大间隔的排序损失来实现分类:
在这里插入图片描述

Reconstruction

利用 $256 \times 256 \times 3$ 的原始RGB图像，进行图像重构，因为使用CNN网络提取的图像特征本质上也是语义空间，也会存在语义信息损失.
在这里插入图片描述

Adversial

$F (x)$ 具有丰富的语义信息，我们希望可以将 $F (x)$ 的语义迁移到 $E (x ’)$ 中，所以，利用判别器 $D$ ,将 $F (x)$ 视为真， $E (x ’)$ 视为假，
在这里插入图片描述
Note:Note：最小化 $L a d v$ 容易引起 $m o d eco ll a p se$ 问题。当 $x 、 x ’$ 是相似的图像（通常是同一类别），损失函数 $L a d v$ 会被 $∥ F (x) - E (x ’) ∥ \approx 0$ 主导，这将导致不能在类别之间迁移语义信息。这里，利用 $W G A N$ ，有助于梯度限制和训练稳定性。

Full objective

在这里插入图片描述

可以将 $F$ 看作encoder，G看作 $Deco d er$ ，那么 $F (x)$ 可以看作 $b o ttl e n ec k l a yer$ ,要其能够匹配 $E (x)$ 的分布，这样SP-AEN是由监督的对抗式自编码器，那么SP-AEN能够被修改以适应别的ZSL框架，比如半监督的 $SP - A EN$ (在 $F (x)$ 上施加额外的对抗损失函数，来匹配一个先验分布)。

Visual-to-semantci $E$
semantic-to-Visual $G$
an independent visual-to-semantic $F$
an adversarial-style discriminator $D$
the semantic embedding $E (x)$

技术操作

visual-semantic embedding
semantic loss
Adversarial Embedding Network
visual-to-semantic space embedder
Classifcaiion 和Reconstruction.
Adversial
判别器D
语义迁移
视觉空间和语义空间
最大间隔排序损失
对抗自动编码器
photo-realistic reconstruction
Semantic autoencoder
all the class embeddings
a flexible plug-and-play
end-to-end fine-tune fashion
the ranking based classification loss
GAN
a large-margin based ranking loss function
MSRA random initializer
grid search
harmonic mean

创新

为了语义损失问题，我们提出来一个新颖的零样本方法嵌入架构 $SP - A EN$ 去保存语义信息。

对抗学习来实现语义迁移。: the two independent semantic embeding.

未来工作

开发模型一般找一个基准模型，借鉴原有名词：eg:半监督、对抗、监督等名词进行修改与调试模型。
incorporating（合并）generative models into SP-AEN, so as to hallucinating photo realistic images for unseen or even synthesized classes
developing new ZSL frameworks such as semi-supervised SP-AEN by imposing a prior semantic space