一、前置知识
1)什么是解耦学习
深度学习方法都是利用使用线性和非线性转换对复杂的数据进行自动特征抽取,并将特征表示为“向量”(vector),这一过程一般也称为“嵌入”(embedding)。之后,神经网络对这些向量进行运算,并完成相应的分类或回归任务:
****“嵌入”(embedding),存在得不足:
1)可解释性差:嵌入所使用的N维向量无法对模型分析的原理和过程进行很好的解释,只有通过逆向工程才能找到输入数据中对分析影响更大的内容。
2)数据需求庞大:较小的数据量无法成功训练模型
3)有监督学习:大部分神经网络都需要有标签得训练数据
4)对象生成:对象生成得过程中除了GANs很难生成一个真实得对象
5)对象操作:难以通过其嵌入调整出输入对象得具体属性
6)零样本学习:基于一个数据集所训练出的神经网络,若不经过重新训练,很难直接应用在另一个数据集上。(迁移学习困难)
****解耦表征学习,旨在分离潜在得变量。
这些变化因素彼此相互独立,且每个变化因素都代表一定的物理 or 语义含义当单个变化因素变化时,会影响生成数据中单个因素变化,而其他因素保持不变。(并不是所有的数据集、模型都能进行解耦表征学习,同时并不是所有的因素都能被解耦出来,需是数据集中的某些变化因素)。
直观上的解耦表征:将特征表示分解成多个互相独立的因素。
理论上的解耦表征:在满足一定条件的数据集上,将特征表示中的变化因素 (variation factors) 分解出来。
直观上的意义
1、在模型可解释性、对象生成和操作以及零样本学习等问题上有着巨大优势
2、解耦表征学习是在效仿人类认知的过程,希望能学到一些解耦的高维抽象的表示
解耦表征学习:解耦表征学习 | 领域简述 - 知乎 (zhihu.com)
人工智能若想从根本上理解我们周围的世界,只有当它能够学会识别和解开隐藏在所观察到的低级感官数据环境中的潜在解释因素时,才能实现这一点。——2013 Bengio
正在训练的特征集可能要用于多个任务,这些任务可能具有不同的相关特征子集。 那么,特征学习最稳健的方法是尽可能多地分离因素,尽可能少地丢弃有关的数据信息。——2013 Bengio
二、什么是SAE
全称为Swapping Autoencoder for Deep Image Manipulation(论文名),及深度学习中的自动交换编码器。
结构如上图,与传统自编码器不同,在编码器模块SAE设置了两个编码部分,分为纹理编码与框架编码,字面意思纹理编码对图的内容编码并提取特征记为s1,对应上图下半部分,而框架编码为上图上半部分操作,其提取框架特征并编码记为s2,将s1与s2融合,经由解码器生成新图。
同时模块起一种类似于Gan网络生成对抗部分的作用,用该模块计算重建损失,并在模型训练的过程中不断对比真实图片的特征(feature vector)与生成图的特征(feature vector),SAE主要是想生成一种以假乱真的图片。
效果图:
上图中我们可以看到在解码过程中,生成的图片与原图既相似又有不同,而下图是SAE这篇论文将SAE与其他一些流行方法对比的结果图。
3)Chest Radiograph Disentanglementfor COVID-19 Outcome Prediction
SAE主要目的是生成一种以假乱真的图片,但在这个过程中实现了特征的解耦合。而本文就是利用了SAE的这个特性提出了LSAE(Lung Swapping Autoencoder),通过这个编码器不仅实现了数据增强也应用了解耦合的思想。
I1 列中的图像和 I2 列中的图像之间的肺交换的两个示例。肺交换自动编码器 (LSAE) 能够在不影响肺形状的情况下成功传输目标肺纹理。交换结果显示在第二列和第三列。
注意I1与I2并不是一种简单的叠加,他们是通过纹理编码器与结构编码器分别提取深度特征后结合再解码的过程,这个过程中有特征的解耦合与再生成(在肺部表现为:肺框架与肺内容物的分离与重构)
LSAE结构图:
该方法比普通的SAE创新在于增加了肺外结构畸变抑制与肺内纹理监督。普通的SAE由于更侧重于自然图像,对于目标对象内外的界限界定并不明确,这样会使得生成的图像出现溢界的现象。
在SAE中定义了几个函数:
,表示为将两张图片混合后的生成图
表示图片的重建损失,X为图片集合
,表示为生成过程中的损失函数,D为鉴别器。
,这个函数的目的是在patch部分控制内容填充物不不限溢出,其中代表的是多尺度裁剪(在原图裁剪的是那部分,对应生成器中也是那部分),但,为随机取样
之后回到本文
肺内纹理监督:In-lung Texture Supervision
该部分与SAE类似用于监督肺内部填充物不溢出
肺外结构畸变抑制:Out-of-Lung Structural Distortion Suppression
主要作用:抑制肺部结构失真
本文相比于SAE的重点创新就是该部分,表示结构自编码器在第i层的一个特征向量
与此同时定义了一批特征向量,为对应的位置的第i层特征向量,为其他向量,则上面的公式很好理解了。
结合肺内纹理监督,公式3也较容易理解。
最终本文的损失函数定义为:
解耦合在本文中的应用:通过解耦合,先在 ChestX-ray14数据集中训练模型(有了解耦合的优势之后,模型泛用性增加),之后用训练好的模型应用于目标数据集,实现目标数据集的数据增强。
最终的识别预测是在增强后的数据集上实现。