Fine-Grained Generalized Zero-Shot Learning via Dense Attribute-Based Attention
attention Mechanism+ embedding method
1. what’s new
利用注意力机制,将attribute-base特征与之语义信息向量对齐,而非将整张图片特征与语义信息向量对齐。
2. 模型方法
与之前的设置有不同的地方,所有类别共享的属性语义向量{
v
a
v_{a}
va }
a
=
1
A
_{a=1}^A
a=1A, 每一个类别都有一个语义向量,其中每一个元素表示该类拥有某个属性的强度:
z
c
z_{c}
zc =
[
]
T
{[]}^{T}
[]T
模型主要分为两个部分,提取attribute-base特征,计算image i 属于class c 的分数。
提取attribute-base特征:attribute-base h
i
a
_{i}^a
ia特征表示image上的视觉特征与属性a的关联性。首先,将image划分为R个区域{ f
i
r
_{i}^r
ir}
r
=
1
R
_{r=1}^R
r=1R;接着,对于每一个属性a计算image中各个区域的注意力权重,注意力打分函数使用双线性模型;最后将每个区域f与对应注意力权重相乘相加即为image i 对应属性a的attribute-base特征。
计算image属于class的分数: 首先,将attribute-base特征嵌入到含有A个属性的语义空间中,得到属性分数e
i
a
_{i}^a
ia,该分数代表image i拥有属性a的置信度;接着计算类分数s
i
a
_{i}^a
ia,在细粒度的图像中,不同类别的图像通常拥有很多的相似地方,而有很少的不同地方,所以为了专注于有判别性的属性,为每一个属性计算一个注意力权重,于是最后的类分数为每个属性分数 * 该类拥有该属性的强度 * 属性的注意力权重 ,再加起来。值得注意的是,属性分数e计算的是属性a是否出现在image上,而注意力权重决定的是属性分数对最后预测时的影响程度,即该属性对预测的判别性强度。
Compositional Zero-Shot Learning via Fine-Grained Dense Feature Composition
Attention Mechanism+ generative model
1.what’s new
利用可见样本的attribute-base特征组合构成不可见样本的attribute-base特征,接着利用该生成的组合特征训练判别模型。
2. 方法模型
模型的一个特点:使用一个判别模型去组合不可见类的特征,之后会使用这些生成的这些特征去训练模型,所以不需要额外地训练生成模型。
目标是使用类标签y和语义向量z生成不可见类的attribute-base特征H,然而p(H|y, z)难以求解,于是可以通过贝叶斯公式转换得到:argmax
H
_H
H p(H|y, z) = argmax
H
_H
Hp(y|H, z)p(H|z),其中p(y|H, z)就是要训练的判别模型;p(H|z)是先验分布,若image区域拥有对应H的特征明显,则赋予高概率,否则赋予低概率。
训练样本的attribute-base特征与目标不可见类的语义向量越相关,该attribute-base特征越容易被用于组合不可见类的attribute-bvase特征。特别地,该相关性用对应训练样本的语义向量与目标语义向量的相似度来衡量。公式如下图:
从所有可能的组合中取样一些组合特征,最后最大化判别模型的概率和先验分布的概率的积,这里就得到了不可见类u的一个attribute-base特征:
于是,可以利用组合的特征和对应不可见类优化训练判别模型,具体做法是提高判别模型根据组合的特征与判别为对应不可见类的可能性,即下图公式的第二项:
最后,在测试阶段,就可以使用判别模型识别测试图片了:
总结
上面两篇论文将注意力机制分别与嵌入方法和生成方法结合解决细粒度图片的零样本分类问题,它们都用到了attribute-base特征,我对于attribute-base特征的理解是,该特征让我们的注意力只集中在某一个属性与图片的相关性,由于属性通常只在图片的一个区域内显示,所以需要先将图片分区域计算与属性的相关性,各个区域的视觉特征与属性的相关性的和就是该图片与该属性的attribute-base特征。与以往零样本方法比较,attribute-base特征代替了整体的image特征,它的优势在于增强了图片的判别性。