领域自适应（Domain adaptation）——源域和目标域并不独立同分布

最新推荐文章于 2024-08-31 11:17:36 发布

凶恶的大恐龙

最新推荐文章于 2024-08-31 11:17:36 发布

阅读量1.3w

点赞数

分类专栏：迁移学习

本文链接：https://blog.csdn.net/qq_41652258/article/details/103230265

版权

迁移学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

网上很多大佬的文章都写的很好，我引用了他们的一部分，所以在此列出并感谢各位大佬：

https://zhuanlan.zhihu.com/p/21441807

https://blog.csdn.net/u013841196/article/details/80957057

领域自适应所要解决的问题是：当源域和目标域并不是独立同分布时，经典机器学习会出现过拟合问题，分类器的性能不好。

领域自适应中，我们通常有三种假设，

1.源域和目标域的概率分布是相似的

2.源域和目标域中某些特征是相似的

3.源域和目标域中某些子空间相似

领域自适应根据自适应的阶段不同可以分为如下三个方面：

（1）样本自适应：对源域样本进行重采样，从而使得重采样的源域样本和目标域样本分布基本一致，在重采样的样本集合上重新学习分类器。样本自适应作用于最前段，适用于源于和目标域分布差异小的情况。

（2）特征自适应：其基本思想是学习公共的特征表示，在公共特征空间，源域和目标域的分布要尽可能相同。特征自适应适用于对源域和目标域有一定差异的情况。

（3）模型自适应：其基本思想是直接在模型层面自适应。模型自适应的方法主要有两种思路，一是直接建立模型，但是在模型中加入“domain间距离近”的约束；二是采用迭代方法，渐进的对目标域的样本进行分类，将信用度高的样本加入训练集，并且更新模型。模型自适应适用于源域和目标域差异比较大的情况。

大体分类就是这样，基于特征的自适应算法中，有很多网络的思想很有意思，以下做简单介绍

1.DDC

具体网络结构如图所示，大概的意思是说在一个CNN中，源域和目标域共享CNN中的权重，但是在第七层之后加入一个权重不共享的自适应层，在误差计算时，误差组成为

误差=分类误差+适应层MMD的形式来使得源域和目标域的分布距离最小化。其中MMD的意思是最大分布距离，用来形容源域和目标域之间的距离，是一种核学习方法，对于不同的核显然有不同的表示。但总的来说MMD公式如图：

其中φ是核函数，因此根据核函数的不同而具有不同类型的MMD。另外，除了MMD之外还有KL散度、Bregman散度等方法表示两个域分布的差异。

2.DAN

DAN可以看做是DDC的改进，网络模型是下面这样的。

在DDC中MMD与核函数直接关联，如果选择了表现较差的核函数则MMD表现也会很差。在DAN中采用了MK-MMD来弥补这方面的缺点。MK-MMD即多核MMD的意思，多核MMD是为了避免单个MMD中核函数的选择比较困难，所以采用多个核函数MMD综合起来构造一个总的核。

DAN在另一方面的改进是不止适配第七层，而是适配六到八三个层，因为在图像识别方面，网络越靠后的层就越task-specific，所以应当格外适应后三层。

3.《Beyond Sharing Weights for Deep Domain Adaptation》（Rozantsev A , Salzmann M , Fua P . Beyond Sharing Weights for Deep Domain Adaptation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018:1-1.）中介绍了一种新网络，网络结构是这样的，这篇论文的大体思路是将源域和目标域的网络更彻底的隔离开，并且在损失函数中加入源域和目标域在每一层的距离误差，而且这个距离误差的权值是可以调节的，基本上来说这种网络就是特征自适应里面比较完美而且泛用性比较好的版本了，这个网络的思想很简单有效，也许在各种不同的网络结构上都有好的表现。