分布对齐 目标函数 迁移学习_伪文艺程序员的“迁移学习”啃读(A)

本文介绍了迁移学习中的浅度迁移模型,包括基于样本的KMM、KLIEP和基于特征的MMDE、TCA等算法。这些算法通过调整样本权重或学习特征映射,实现源域与目标域的数据分布对齐,以提高模型在目标域的泛化能力。文章还探讨了分布对齐和保持分类性能的重要性。
摘要由CSDN通过智能技术生成
3fbc3c73e8e5738f8b28af0fa1989b86.gif点击“网络人工智能园地”关注我们~ b046b11d4b0858cbdaba8e7a25680cc4.png

6f81e0e8d7b2290dde68334f40424896.png

作者:新春

————————

计算机软件新技术国家重点实验室伪文艺程序员

既可提刀立码,行遍天下

又可调参炼丹,卧于隆中

在迁移学习(Transfer Learning)任务里面,迁移算法能够利用在源域(Source Domain)学习到的知识辅助目标域(Target Domain)的模型的建立。在非深度迁移(Shallow Transfer Learning)领域,以基于样本的迁移(Instance-based)、基于特征的迁移(Feature-based)为主;在深度迁移(Deep Transfer Learning)领域,以基于对抗网络的迁移(Adversarial Domain Adaptation)技术为主。

基于样本的迁移主要是给源域样本赋予一个权重,使得加权(Instance Re-weighting)或者重采样(Importance Sampling)之后的源域样本和目标域样本的分布对齐,比如KMM、KLIEP、TrAdaboost等等;基于特征的迁移主要是基于子空间(Subspace)的方法,目的是寻找一个合适的映射矩阵使得源域和目标域在子空间里面的距离最小,比如SA、TCA等等。

无论是哪种迁移算法,出发点都有两个:第一,减小源域和目标域的距离,对齐数据分布;第二,保证分类算法在源域和目标域(如果目标域有标记)上的性能不会下降太多。

本文就简单从上面的出发介绍一些迁移学习领域的知识,包括浅度迁移模型举例、深度网络迁移、迁移两大因素、迁移理论研究、迁移度量技术和迁移前沿研究等内容。

下面是文章的目录结构:

  1. Shallow Transfer Models

  2. Deep Domain Adaptation

  3. Transfer Learning Theory

  4. Transferability & Discriminability

  5. Quantify Transfer Learning Factors

  6. Transfer Learning New Researches

1

Shallow Transfer Models

本节介绍一些传统的迁移算法,有的只是列出优化目标,并不会详细进行推导,主要是一个梳理工作,大概包括以下算法(按发表时间排序):

  • KMM(NeurIPS 2006)

  • KLIEP(NeurIPS 2007)

  • MMDE(AAAI 2008)

  • TCA(IJCAI 2009)

  • GFK(CVPR 2012)

  • ITL(ICML 2012)

  • MSDA(ICML 2012)

  • SA(ICCV 2013)

  • GTL(TKDE 2014)

  • CORAL(AAAI 2016)

  • LSDT(TIP 2016)

下面就分别简单地介绍一下这些算法的核心思想。

  • KMM

KMM的全称是Kernel Mean Match,是NeurIPS 2006年《Correcting Sample Selection Bias by Unlabeled Data》提出的一个算法。这里的Sample Selection Bias指的是训练集和测试集的采样分布有稍微的偏差,和Covariate Shift和Domain Adaptation的概念有一定相似。

机器学习任务(比如分类)中训练集上的期望损失为 4de2e000-7152-eb11-8da9-e4434bdf6706.svg ,测试集的期望损失为 60e2e000-7152-eb11-8da9-e4434bdf6706.svg 。一般的机器学习算法假设训练集和测试集是从同一个分布采样得到的,即 63e2e000-7152-eb11-8da9-e4434bdf6706.svg ,那么最小化 66e2e000-7152-eb11-8da9-e4434bdf6706.svg 的同时也会最小化 6de2e000-7152-eb11-8da9-e4434bdf6706.svg 。

我们的目标是希望在训练集上训练的模型能更好地泛化到测试集,因此我们希望最小化的还是 6de2e000-7152-eb11-8da9-e4434bdf6706.svg ,由于传统机器学习假设 72e2e000-7152-eb11-8da9-e4434bdf6706.svg ,因而直接最小化训练集上的期望/经验损失即可。

但是,很多实际场合里面训练集和测试集的分布不一致,包括边际分布 7ce2e000-7152-eb11-8da9-e4434bdf6706.svg 和条件分布 83e2e000-7152-eb11-8da9-e4434bdf6706.svg 都可能不一样。那么有 88e2e000-7152-eb11-8da9-e4434bdf6706.svg ,因此如果我们想获得一个在测试集上也能表现地很好的学习器 8ae2e000-7152-eb11-8da9-e4434bdf6706.svg ,那么我们需要做的是:

90e2e000-7152-eb11-8da9-e4434bdf6706.svg

可以看出,给训练集上的样本加个权重,类似于使用重要性采样(Importance Sampling)的方法对样本进行赋权(Instance Reweight),记 94e2e000-7152-eb11-8da9-e4434bdf6706.svg 。根据Covariate Shift或者Sample Selection Bias的假设,边际分布不一致,但是条件分布一致。因此有 98e2e000-7152-eb11-8da9-e4434bdf6706.svg 。

如果能寻找出一组权重 bce2e000-7152-eb11-8da9-e4434bdf6706.svg ,使得带权的训练集样本分布和测试集分布一致,这里的一致该如何衡量呢?这个可以根据《A Kernel Method for the Two Sample Problem》里面的Kernel Mean Matching方法(也是著名的MMD的前身),这个文章发表在NeurIPS 2006,和KMM算法的提出者是同一批作者。

优化目标是:

c2e2e000-7152-eb11-8da9-e4434bdf6706.svg

其中 c7e2e000-7152-eb11-8da9-e4434bdf6706.svg 是样本到希尔伯特空间的映射, bce2e000-7152-eb11-8da9-e4434bdf6706.svg 是要优化求解的权重。 d4e2e000-7152-eb11-8da9-e4434bdf6706.svg 则可以理解为根据样本分布 7ce2e000-7152-eb11-8da9-e4434bdf6706.svg 采样得到的样本在希尔伯特空间里面的中心表示,可以看作是一个分布的特征表示。最小化两个分布的表示的距离(在希尔伯特空间),那么就相当于最小化两个分布之间的差异。

以上优化目标的经验近似为:

eae2e000-7152-eb11-8da9-e4434bdf6706.svg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值