VALSE2019 龙明盛老师speech

真的是闲的看视频敲的。
Transfer Learning From Algorithms to Theories and Back
http://ise.thss.tsinghua.edu.cn/~mlong/doc/transfer-learning-talk-valse19.pdf

迁移学习知识
机器学习的重要目标是从数据中学习模型,数据实际上是有分布的,关于特征x和标签y的联合分布。目标域的期望风险可以被训练数据的经验风险和sample capacity界定。
迁移学习source domain分布p 和td 分布q不一样,在大规模数据上预训练的模型能够有一个比较好的迁移能力,但这往往只是一个相对经验性的结果,
从分布的匹配角度说,迁移学习的根本问题是如何将两个domain中,分布进行适配。不容易,因为数据的分布非常的复杂。迁移学习中有一个主流的方法叫做对抗学习。通过confuse判别器,判别器分不开,就认为这两个分布是近似的。但GAN网络的很多研究成果告诉我们得到的分布并不是一个非常好的匹配。需要考虑更多的信息,比如正则化的方法,conditional方法,才能使得分布匹配得比较好。换句话说,如果我们只考虑边缘分布匹配,这对迁移学习实际上来说是不够的。另外一类比较经典的kernel embedding方法,叫做非参数化的方法。这类方法在深度学习出来之前,用核方法非参数的方法来定义一些领域之间差异的度量,这种度量通常叫做统计距离。使得统计距离最小的时候得到的特征就是一个比较好的特征。两类方法
在这里插入图片描述

第一个是比较早的工作,主要考虑的是特征的分布不一样的时候。ICML2015,传统的统计学习的方法在TL学习中的应用,公式1最大均值散度特征映射将数据从原始空间映射到高纬空间,在这个高纬空间分别计算P和Q的期望。高纬空间中的期望,等价于低维空间中的期望方差斜度以及各阶momentum,整个数据分布有一个矩函数。自变量的各个order下的期望,等价于moments matirc矩匹配,如果分布PQ 所有阶次的矩函数是相等的,就认为dk 能够达到最小。基于这个考虑,这个工作中就提出了minmax包括两部分,mean game学到一个深度网络,参数是theta,在这个深度网络的表征之下,距离d达到了最小,就是统计距离最小的时候分布就接近。同时有一个核函数,multi-kernel learning找到最好的核函数k,在k下使得距离达到最大。为什么要考虑这一点呢?因为实际上很容易找到核函数k使得公式1代表的距离是0,因此一定会存在一个最优的核函数k使得这个距离达到最大。当距离对于两个domain的非常细小的差异都能够给出一个距离的时候,说明这个距离能够捕捉两个分布的微小的差异,认为这个时候去最

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值