深度学习—读Small Data Challenges in Big Data Era: A Survey of Recent Progress on Unsupervised and Semi...

最新推荐文章于 2022-06-14 22:11:52 发布

无意识积累中

最新推荐文章于 2022-06-14 22:11:52 发布

阅读量1.6k

点赞数 3

分类专栏：深度学习基础

本文链接：https://blog.csdn.net/weiwei935707936/article/details/100168981

版权

深度学习基础专栏收录该内容

45 篇文章 5 订阅

订阅专栏

（本文涉及概念较多，主要分为四部分：

琐碎的小概念

无监督学习

半监督学习

域适应）

一.琐碎的小概念：

无标签数据的作用：

（1）它的分布可以学习更加鲁棒（预测更加平稳平滑即便在给数据加噪音之后）的表征，以泛化新的学习任务

（2）可以用来减小域的间隙

Auxiliary tasks的作用: 即ZSL和FSL可以转化语义知识和学习到的知识从源任务到目标任务。
特征解耦：一种因素可能对一个方面有较大影响，因而不似从前笼统地表示，而是单独出来。（自己理解为特征的细化）
变换等变性：即图像怎样变，特征就怎样变; 先变图像再过卷积和先卷积再变特征是一样的。

下面进入无监督和半监督具体的算法分类介绍：（此二图可以较好地说明总体的结构）

二.无监督

(一). 变换等变表示（TER——Transformation Equivariant Representations)

在有监督的情况下用数据增强来增加模型的鲁棒性。但是，没有标签的无监督就做不到。

1.群等变卷积网络（Group-Equivariant ）：

有一组变换（旋转，平移等等），虽然有这些变换，但最后得到的特征图都是一样的。（比如：直观来说，抗旋转）

2.AET（Auto-Encoding Transformations） , AED （Auto-Encoding Data，AED）和 AVT（Auto-encoding Variational Transformations，AVT）:

（感觉应该是作者和他的学术搭档自己曾经提出过的模型，资料不多，以后碰到再说）

（二）. 生成式模型：注意disentangling representations的概念。了解如何从无标签数据抽取可解释的生成因素。

1.自编码器：

（1）VAE:

直观解释：

给原来Auto-encoder中间的code加了噪音（图中， m_i 是原来的， c_i 是加了噪音的）。

同时，还有最小化项如下图。因为：训练的过程中肯定会使噪音为‘0’（那和没加有什么区别）

所以，下图的前两项就可以控制 $\sigma _i$ 趋向于‘1’而不是‘0’ 。此外，最后的 m_i 可以看作L2正则化。

数学解释：（下式是VAE的标准公式，就像GAN的那般）

（2）CAE 和 DAE:都是通过加入噪音使模型更加鲁棒。

DAE:破坏样本，还要从中生成未破坏的原样本。

CAE:直接惩罚学习到的表示的变化。

2.GAN:

对抗表示学习：这类GAN模型通常有三个结构，

生成器G：将噪声z的分布p(z)映射到生成样本X的分布篇p(x)

编码器E：将X中的一个样本x映射回噪声z (即理想状态下，E是G的反转网络)

判别器D：能够判别出真实样本对（x,E(x)）和假样本对（G(z),z）

（优点：就是VAE太模糊，GAN缺少有效推断，自回归模型计算太慢。

对抗表示学习的目标就是解决这些问题）

（1）BiGAN:(如，下图所示，非常明了)

其目标：

目标函数：

（2）ALI:有Encoder和Decoder，但它们却是独立工作的

3.特征解耦：

假设一组有意义的属性，例如人脸表情、姿态、眼睛颜色、性别甚至身份，都可以用于分类人脸图像，而且他们在解决未来的识别问题中会有很大的作用。这意味着好的特征表示应该能尽可能的非耦合，从而为描述数据提供更丰富的属性。

（1）InfoGAN:

输入：耦合噪声Z+ 隐编码c

目标：最大化互信息I(c,G(z,c)) 来防止生成器对隐编码模型的依赖。

（2）betaVAE:

目标函数：

（解释：当beta为1时，模型即为普通VAE,但是当beta变大，就会影响重构保真度和非耦合程度之间的平衡。）

非耦合指标：评价学习到的特征的非耦合程度。

4.其他模型

（三）. 自监督学习：

自回归方法：训练是通过预测上下文缺失完成。

1.PixelRNN：将图像分为小块，作为预测序列。

(1) RowLSTM：按行从上到下生成。

(2) Diagonal BiLSTM: 按对角线生成。

(3) Mutil-Scale PixelRNN: 先输入到无条件的PixelRNN生成较小图像。

然后有条件PixelRNN将较小图像作为输入，生成较大图像。

即可以多个PixelRNN累积，从小分辨率生成大分辨率。

2.PixelCNN:

PixelRNN的缺点是每个块都要按序列计算，计算量大。

这种缺点可以通过卷积结构同时计算所有块避免。即每个块就是感受视野。

Gated PixelCNN: 引入门限激活，可对不同块之间复杂依赖性建模。

3.对比预测编码（Contrastive Predictive Coding，CPC）

4.图片和视频

无监督模型的评价准则：

三.半监督

（一）生成式模型:

1.半监督自编码器：

M1:编码器，输入x，会输出z。在z的基础上，训练一个分类器。

VAE是使用有标签和无标签的数据共同训练的。

分类器是使用有标签的数据训练的。

M2:将M1和M2模型结合起来。

编码器，输入x，会输出z2,y。

如此便可以生成一个两层的深度模型：（z2,y）生成z1, 再从z1中生成x。

以这样的方式训练。

2.半监督GAN:

(1)特征匹配训练k+1个分类器：

1）K+1分类器：将样本分为K个真实的类和一个虚假的类。所有真实的样本被分到某一个k类中，所有生

成的样本都分为虚假类。模型采用无监督GAN损失，和标签数据传统的分类损失训练。

2）特征匹配：传统的GAN的目标是最大化生成样本被分到真实的概率。而此处的目标是，最小化真实

样本和生成样本在分类器特征层间的差异（对提升半监督GAN的效果起到了重要作用）

（2）通过LocalGANs 追逐标签不变性

图拉普拉斯矩阵被广泛用于刻画图中相连样本的类标变化。最小化图拉普拉斯矩阵可以对相连的相近类标做出类似的预测。尽管图常常用于近似未知数据流形，图拉普拉斯矩阵实际上是 Laplace- Beltrami 算子在数据流形上的近似。

（这篇也是作者的文章。容后再看。）

3.半监督特征解耦

（1）深度卷积反向图形网络：

深度卷积反向图形网络（DC-IGN）通过设计视觉模型作为反向图形，实现了一个半监督变分自编码模型。它的目标是学习到图形节点集合，通过这些图形节点可以对图像进行变换和渲染。这些图形节点可以视为图像的非耦合表示。

（2）解耦半监督VAE：

作者提出了半监督 VAE 的一种泛化形式，能够从隐表示中分解出可解释的变量。作者利用神经网络设计了一个图模型，对观测到的和未观测到的隐变量的普遍依赖性建模，并利用随机计算图对生成模型进行推理和训练。

（二）Teach-Student模型:

使用教师的输出作为标签训练学生。通过最大化老师和学生间的一致性提升学生模型的表现和无标注样本分类的稳定性。

1.噪声老师：

使用随机噪声探索其对噪声输入和扰动模型的适应性。（但是效率较低）

2.老师集成：

以下二者相同之处在于，随时间组合模型，以得到更好的模型。

不同之处在于，时间组合采用预测指数滑动平均，

平均教师采用参数指数滑动平均。

（1）时间组合：

更新方式：

目标函数：

（2）平均教师：

更新方式：

目标函数：

3.对抗教师：虚拟对抗训练：

虽然时间组合和平均教师都跟踪之前的模型集来预测教师模型的目标，以监督训练过程，但他们仍然依赖于添加随机噪声来训练具有一致预测的稳定模型。研究表明，如果不知道面对对抗噪声时模型有什么弱点，用随机采样的噪声训练模型，无法获得样本周围的局部各向同性输出分布。这启发了另一种方法，即利用对抗教师来监督训练过程。

半监督评价准则

四.域适应

（一）无监督域适应

GAN的方式是转换源域，使其更接近目标域。人们常常从三个角度考虑模型的设计。

A:试权重：源域和目标域的模型是否共享权重（？）

B:基于模型：鉴别器和生成器是否能把源域迁移到目标域（？这么理解对吧）

C:对抗目标用于训练模型。

1.对抗性区分域适应（Adversarial Dicriminative Domain Adaptation——ADDA）

ADDA源域和目标域的特征模型不共享特征，而是通过学习两个不同的模型 M_S 和 M_T 来映射各自的特征。

Step1:用标签数据训练 M_S (然后训练 M_T 。目的：让两个模型输出的分布是一致的，具体怎么做看下面步骤)

同时顺便训练出一个分类器

Step2:训练鉴别器D: $max_DE_x_-_p_s logD(M_s(X))+E_x_-_p_t(1-logD(M_T(X)))$

(解释：前一项关于源域特征提取器，对于鉴别器来说希望输出‘1’。后一项是目标域提取器，鉴别器希望输出‘0’)

Step3:训练生成器G(此时冻结鉴别器，其实生成器就是 M_T ): $max_M_TE_x_p_tlogD(M_T(X))$

(解释：对于 M_T 提取出来的特征,希望鉴别器能够输出‘1’，这样就是目标域的特征向源域靠近的过程)

2.梯度翻转层(Gradient Reversal Layer——GRL)

Step1:不像ADDA,GRL的特征提取器权重被源域和目标域共享（即 M_S=M_T=M ）。

$max_Dmin_MR(D,M) = E_x_-_p_slogD(M(x))+E_x_-_p_t(1-logD(M(x)))$

(解释：将会映射源域和目标域的特征，即源域和目标域只要经过，特征就会自动地没有差别)

Step2: 并且，分类器,特征提取器和鉴别器都是放在一起训练的。

$max_Dmin_M,fE_(_x_,_y_)_-_p_sLoss(f(M(x)),y)+R(D,M)$

但是GRL的一个不好处就是：容易受梯度消失的影响。

（二）半监督域适应

无监督和半监督差别其实就在有没有重新用伪标签（？对不对）

PixelDA:把源域的图片加了噪点z之后向目标域迁移。然后就可以半监督来进行训练了。

还可以最小化相似性损失，以利用迁移过程中的先验知识。

此外，还提出了两个分支结构，以同时训练源域和目标域。它没有试着直接加强域的不变性，因为这样可能会削弱分类器的鉴别能力。所以，它直接对源域和目标域的相似性和不同进行建模。引入一个权重调节器，最小化两个权重差异的线性变换。它提升域的不变性，同时也承认两个域的差异。然后，通过提取特征可以最小化域差异。这通过最小化核空间的MMD（Maximum Mean Discrepancy）实现。同时GRL的思想同样可以用来训练域分类器（但两个域提取特征难以区分时表现不佳）。(?)

（3）更多相关工作

Domain Confusion:视两个域一致，映射统一分布，来实现特征的解绑？

CoGAN:训练两个GAN,分别生成目标域和源域图片。域不变性通过联合两个GAN的高层参数和基于鉴别器训练的分类器实现。（？）

转化的等变性和不变性

无意识积累中

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
2
评论
深度学习—读Small Data Challenges in Big Data Era: A Survey of Recent Progress on Unsupervised and Semi...

（本文涉及概念较多，主要分为四部分：琐碎的小概念无监督学习半监督学习域适应）一.琐碎的小概念：无标签数据的作用：（1）它的分布可以学习更加鲁棒（预测更加平稳平滑即便在给数据加噪音之后）的表征，以泛...
复制链接

扫一扫