对于DAN方法的解读-Learning Transferable Features with Deep Adaptation Networks

最新推荐文章于 2024-05-30 22:22:28 发布

张博208

最新推荐文章于 2024-05-30 22:22:28 发布

阅读量3.4k

点赞数 2

分类专栏： Transfer learning

原文链接：https://blog.csdn.net/weixin_40526176/article/details/79065861

版权

Transfer learning 专栏收录该内容

7 篇文章

订阅专栏

https://blog.csdn.net/weixin_40526176/article/details/79065861

下面分为五个部分来讲解：

一.研究背景

二.本论文所解决的问题

三.DAN方法

四.实验部分

五.结合自己的论文

一.研究背景

精简的说，研究表明：深度神经网络可以学习可迁移特征，这些特征用于域适应时在新的任务上表现出很好的泛化能力。然而由于深度特征随着网络层数的增加由一般到特殊转变，特征的可迁移能力在网络高层急剧下降，极大地增加了域之间的差异性。

神经网络通常在前面几层都学习到的是通用的特征（general feature），随着网络的加深，后面的网络更偏重于学习特定的特征（specific feature）。

其中有两篇经典论文可以作为背景来介绍。

第一篇是《how transferable are features in deep neural networks？》

该论文可以说是迁移学习非常有里程碑意义的一篇了，其中画出的这个图很能说明问题。我们基础的神经网络可以单独看作B，在此基础上，把网络A进行迁移，其中n代表了迁移，比如BnB+就是把B的前n层迁移到B，+表示微调，意味着更加符合后面网络的形状。我们可以重点来看AnB和AnB+两者，当单纯的把A网络迁移到B上时，可观察到，随着网络层数的增加，前三层变化不大，从第四层开始精确度下降，这也说明了对于AlexNet模型来说，前三层学习到的是通用特征，后面学习到的是specific feature。

第二篇是《Deepdomainconfusion: maximizing for domain invariance》

该论文提出了一种DDC方法，针对于预训练的AlexNet（8层）网络，在第7层（也就是feature层，softmax的上一层）加入了MMD距离来减小source和target之间的差异。这个方法简称为DDC。

二.本论文所解决的问题

DAN解决的是迁移学习和机器学习中经典的domain adaptation问题，只不过是以深度网络为载体来进行适配迁移。主要应用在分类和回归问题上。

域适应方法一般要求源域的数据是有标签的，目标域上的数据是无标签的，即实现目标域能够和源域相似的分类。

域适应强调的是解决有来自两个相关域但分布不同的数据问题。比如汽车图像问题。域差异是不同域之间适应预测模型的主要障碍。

三.本文提出的方法：DAN

DAN是在DDC的基础上发展起来的，它很好地解决了DDC的两个问题：

一、DDC只适配了一层网络，可能还是不够，因为之前的工作中已经明确指出不同层都是可以迁移的。所以DAN就多适配几层

二、DDC是用了单一核的MMD，单一固定的核可能不是最优的核。DAN用了多核的MMD（MK-MMD），效果比DDC更好。

DAN主要思想：通过明确地减少域差异来增强深度学习神经网络的具体任务层的特征迁移性。

（域差异可以通过使用平均嵌入匹配的最佳多核选择方法来被进一步减小。）

为了实现这一目标，所有具体任务层的隐藏表示被嵌入到ReproducingkernelHilbertspace，在希尔伯特空间中不同的域分布的平均嵌入可以被明确分配。由于平均嵌入对内核的选择非常敏感，所以设计最优多内核选择过程，这可以进一步减少域差异。

创新点一：多层适配

DAN也基于AlexNet网络，适配最后三层（6~8层）。为什么是这三层？在前面的图中可以看出，网络的迁移能力在这三层开始就会特别地task-specific，所以要着重适配这三层。至于别的网络（比如GoogLeNet、VGG）等是不是这三层那就不知道了，那得一层一层地计算相似度。DAN只关注使用AlexNet。

结合自己的实验时，需要考虑适配哪几层

创新点二：MK-MMD(Multi-kernel MMD)

传统学习方法有一个假设：training sample和test sample都是从同一个分布抽样得到，即训练集和测试集是独立同分布的，这个假设使得离线的学习方法得以运行。在迁移学习环境下training sample和test sample分别取样自分布p和q，两个样本不同但相关，现在我们要通过测试样本改善模型性能。求解这个问题的思路比较多，这里只列一个目前流行的思路：

利用深度神经网络的特征变换能力，来做特征空间的transformation，直到变换后的特征分布相匹配，这个过程可以是source domain一直变换直到匹配target domain，也可以是source domain和target domain一起变换直到匹配（例如下图）

(还有其他方法，KLd等)

【对该图的理解：源域和目标域的数据都放在一起，通过AlexNet来训练，前三层frozen，第四层第五层fine-tuning，当到后面几层时，source data和target data分开，然后通过MK-MMD方法来计算两个域的距离，并且通过损失函数来进行优化，最后当损失函数优化到设定的阈值时，就可进行最终的分类】

概率分布p和q之间的MK-MMDdk（p，q）被定义为p和q的平均嵌入之间的RKHS距离。对于两个概率分布，它们的MK-MMD距离平方就是：