NIPS 2016 深度学习迁移学习 ---残差转移网络用于无监督领域自适应

最新推荐文章于 2022-04-09 17:33:08 发布

frank_hetest

最新推荐文章于 2022-04-09 17:33:08 发布

阅读量1k

点赞数 1

深度学习的成功得益于大量的标注数据，而数据标注是非常消耗资源的。当一个问题中缺少标注数据时，可以从另一个源中所学知识迁移过来，并且用于新问题中。

清华大学的学者提出了一种新的方法（https://arxiv.org/pdf/1602.04433.pdf），它可以在源领域中学习自适应分类器，并且可以将所学特征迁移到目标域的无标签数据中。

Unsupervised Domain Adaptation with Residual Transfer NetworksMingsheng Long*, Tsinghua University; Han Zhu, Tsinghua University; Jianmin Wang, Tsinghua University; Michael Jordan, University of California, Berkeley

这种方法将特征嵌入到可再生核希尔伯特空间中，匹配特征分布，以便特征自适应。其中的自适应借助于对前向模型加以扩展，即加入新的残差层和损失函数。

注：训练样本集和测试样本集之间存在某种变换关系时，所学判别模型就是领域适应问题，也是迁移学习的一种特例 (Pan & Yang, 2010)。本篇论文主要源于 ImageNet ILSVRC 2015 中的一篇论文 He et al. (2015)。

本文贡献在于：

(1) 为领域适应提出一种新的残差迁移网络模型，其中分类器和特征都是自适应的。 (2) 为领域适应问题探索出一个深层残差学习框架，在目标领域中不需要标签数据。

这种方法具有一定的通用性，因为它几乎可以用于所有现有前向结构中。

下面简单介绍下模型。

源领域中的经验误差定义如下：

0?wx_fmt=png

其中交叉熵损失函数定义如下：

0?wx_fmt=png

作者所提残差迁移网络模型结构如下：

0?wx_fmt=png

下图是残差学习的构建单元，通过下面的构建单元可以将源领域中的分类器（激活前）和目标领域中的分类器（激活前）桥接起来。

这样可以保证不涉及到类别标签，因为目标领域问题中是没有标签的。

0?wx_fmt=png

其中 He et al. (2015) 给出了

0?wx_fmt=png

是条件概率，累加项是条件熵损失函数。通过最小化交叉熵惩罚项（3），目标领域的分类器就可以用于目标领域中的无标签数据。

特征适应需要最小化下面函数

0?wx_fmt=png

这个差异度量具有如下特性 (Gretton et al., 2012a)：

0?wx_fmt=png

将特征学习（1），分类器自适应（2）（3），特征自适应（4）集成起来就可以得到作者提出的残差迁移网络：

0?wx_fmt=png MK-MMD惩罚（4）的折衷参数。

实验

实验过程的预训练基于ImageNet 2012的 AlexNet 模型，微调过程参考了 (Long et al., 2015).

实验结果

0?wx_fmt=png

其中

Transfer Component Analysis (TCA) (Pan et al., 2011),

Geodesic Flow Kernel (GFK) (Gong et al., 2012), Deep Domain Confusion (DDC) (Tzeng et al., 2014),

Deep Adaptation Network (DAN) (Long et al., 2015),

Reverse Gradient (RevGrad) (Ganin & Lempitsky, 2015).

0?wx_fmt=png

其中 t-Distributed Stochastic Neighbor Embedding (t-SNE) (Donahue et al., 2014) 是一种用于降维的技巧，非常适合对高维数据可视化。

0?wx_fmt=png

参考资料：

Pan, S. J. and Yang, Q. A survey on transfer learning. TKDE, 22(10):1345–1359, 2010.

He, K., Zhang, X., Ren, S., and Sun, J. Deep residual learning for image recognition. arXiv preprint arXiv:1512.03385, 2015.

Long, M., Cao, Y., Wang, J., and Jordan, M. I. Learning transferable features with deep adaptation networks. In ICML, 2015.

Gretton, A., Borgwardt, K., Rasch, M., Sch¨olkopf, B., and Smola, A. A kernel two-sample test. JMLR, 13:723–773, March 2012a.

Gretton, A., Sriperumbudur, B., Sejdinovic, D., Strathmann, H., Balakrishnan, S., Pontil, M., and Fukumizu, K. Optimal kernel choice for large-scale two-sample tests. In NIPS, 2012b.

Pan, S. J., Tsang, I. W., Kwok, J. T., and Yang, Q. Domain adaptation via transfer component analysis. TNNLS, 22 (2):199–210, 2011.

Gong, B., Shi, Y., Sha, F., and Grauman, K. Geodesic flow kernel for unsupervised domain adaptation. In CVPR, 2012.

Tzeng, E., Hoffman, J., Zhang, N., Saenko, K., and Darrell, T. Deep domain confusion: Maximizing for domain invariance. 2014.

Ganin, Y. and Lempitsky, V. Unsupervised domain adaptation by backpropagation. In ICML, 2015.

https://arxiv.org/pdf/1602.04433.pdf