ICML2019: Learning Classifiers for Target Domain with Limited or No Labels-CSDN博客

本文链接：https://blog.csdn.net/cassiePython/article/details/96443727

ICML2019: Learning Classifiers for Target Domain with Limited or No Labels

引言

本文提出了一种视觉属性编码（visual attribute encoding）方式，将图片编码为低维度的概率向量。得到了图片对应的编码后我们就可以训练分类器进行分类，进一步地该方法可以应用到aomain adaptation（DA），few shot learning（FSL），zero-shot learning (ZSL)。

问题定义

Unsupervised Domain Adaptation（UDA）： 源域和目标域有着同样的label种类。训练集包括有label的源域样本，和无标记的目标域样本。测试集为目标域样本。
Few Shot Learning (FSL)： 源域和目标域的label并不是完全统一的，在训练时我们有两个集合，训练集（由源域样本构成），支持集（support set，对于目标域的每个类别随机采样k张图片构成。）。测试集为目标域样本。
Zero-Shot Learning (ZSL)： 在FSL的基础上，对于目标域我们在训练时没有label信息。测试集为目标域样本且label未出现过。
Generalized Zero-Shot Learning（GZSL）： 训练过程同ZSL，但是测试集样本的标记可以是出现过的，也可以是未出现的。

框架

在这里插入图片描述

整个框架主要包含以下三部分：

a part-feature extractor：给定一张输入图片x，输出关于M个attention区域的特征z。z的特点是：关注于图像的不同前景区域，且尽可能不重叠。
a part-probability encoder：将z进行编码，得到更低维度的概率向量 $\pi$ （类似于BoF的操作，利用字典进行编码）。
a task specific predictor：输入为概率向量 $\pi$ （作者称之为LDVA编码），然后可以用来进行GZSL，FSL或者DA。

PS：这里我们可以得到：

part-feature extractor应该可以提取多样的，可区分的attention regions，这些regions是训练集图片公共的部分。比如对于鸟，这些regions应该包含嘴，尾巴，脚等。
primitive prototypical atoms即part-probability encoder编码后的表示应该可以重构回原有的part feature。所以又增加了图-1中的Part-Feature Decider部分。
最后的predictor对于不同的任务可以进行定制。如上图中针对不同的任务有着不同的操作：Semantic Prediction，最近邻，传统的分类。

Part-Feature Extractor

这里使用Learning multiattention convolutional neural network for fine-grained
image recognition这篇文章提出的MA-CNN将输入的图片映射到一个有限的部分特征向量集合z（a finite set of part feature vectors）。MA-CNN包含一个全局的特征提取器E，和一个channel grouping model G，即一个权值矩阵。这样对于第m个部分，attention map为：
在这里插入图片描述
part feature $z_m$ 为：

引入一个loss来限制part的生成，即dis和div，两个部分互相制约。dis是为了让mask向最大响应的地方集中，div是为了找到不同的mask：

其中：

到这里，实际上都是MA-CNN已经实现的工作。

Part-Probability Encoder

首先我们来理解下这个编码到底是什么。
在这里插入图片描述

prototypical part types表示的就是基本元素（相当于BoF算法中的纹理单元，BoW算法中的word）。这里大家可以先浏览下之前的一篇博文：https://blog.csdn.net/cassiePython/article/details/80116082 。便于理解这里。对于每一个part，都可以使用一系列基本元素的组合来表征。相似的物体也就意味着有着相似的基本元素集合。对于一些差异较小的语义属性，编码后的差异也较小。这点也是符合实际的。

首先回顾下混和高斯模型：K-means 将样本分到离其最近的聚类中心所在的簇，也就是每个样本数据属于某簇的概率非零即 1。对比 K-means，混合高斯的不同之处在于，样本点属于某簇的概率不是非零即 1 的，而是属于不同簇有不同的概率值。高斯混合模型假设所有样本点是由 K 个高斯分布混合而成的，如统计一个班级里所有同学的身高，这些身高就是由男生身高和女生身高这两个高斯分布混合而成的。

作者这里假定每个part feature $z_m$ 都服从一个混合高斯分布：
在这里插入图片描述

因为有k种基本元素，所以这里是k个高斯分布的叠加。其中 $\pi_{k,m}$ 表示part m属于Gaussian component $D_{k,m}$ 的component k的概率。也就是说 $\pi_{k,m}$ 衡量了在一个part中，包含一系列基本元素的概率。(PS.感觉类似于HoG特征)。

基于高斯混合模型这个假设，我们的目标就是希望用 $\pi_{k,m}$ 来表征特征。定义一个映射矩阵 $P_m$ ：
在这里插入图片描述

Guassian Mixture Condition: 根据高斯混合模型的理论，存在一个矩阵 $D_m$ ：
在这里插入图片描述

将 $P_m$ 和 $D_m$ 看过模型的参数，其中 $P_m$ 表示encoder， $D_m$ 表示decoder，有：
在这里插入图片描述
（PS. 根据文中的说明，仅仅依靠这个损失，就可以将 $z_m$ 映射到 $\pi_m$ ？？？感觉有些疑问，根据公式6，通过线性映射 $P_m$ 可以将 $z_m$ 映射到 $\pi_m$ 。而 $\pi_m$ 应该是可以通过混合高斯模型直接求出来的（如使用EM算法）。如果是这样的话，我们还可以通过一个网络得到 $P_m$ ，进而得到 $D_m$ 。对于unseen的样本就可以直接通过网络 $P_m$ 直接得到编码。感觉这样才是合理的。而从这个损失项中，只看到了重构的过程，以及两个正则化项。并没有看出是如何确保矩阵 $P_m$ 是如何正确运作的。

Task Specific Predictors

得到概率编码之后我们将其作为task specific predictor $V(\pi)$ 的输入。

Generalized Zero-Shot Learning： 对于GZSL，神经网络 $V(\pi)$ 是一个语义预测模型（semantic prediction model），将 $\pi$ 映射到 $\Sigma$ 。给定输入图片x和它的语义属性 $\sigma_y$ ，训练GZSL predictor的loss为：
在这里插入图片描述

(PS: 这个式子作者貌似写错了，第二三项相减不是0吗？）

Few-Shot Learning： 对于FSL，输入是一个source域的样本（x,y）时，使用交叉熵：
在这里插入图片描述

CE表示交叉熵，o表示one-hot编码。训练后，对于target域support set中的K-shot样本，构造一个最近邻分类器进行测试：
在这里插入图片描述
Domain Adaptation： 对于DA，目标域样本没有标记，这里使用了(Chadha & Andreopoulos, 2018; Saito et al., 2017)的方法对目标域样本附上伪标签进行训练，损失为：