©PaperWeekly 原创 · 作者|张玮玮
学校|东北大学硕士
研究方向|情绪识别
迁移学习中大多数工作在研究单个源域到单个目标域的学习,在实际生活中,应用的时候会碰到很多有标注样本的不是来自单个源域的,有可能来自很多个源域。这些源域数据具有不同的分布,但又具有相关的特征。
下面将通过三篇论文介绍一下多源迁移学习的相关研究。
Boosting for transfer learning with multiple sources
论文标题:Boosting for transfer learning with multiple sources
论文链接:https://ieeexplore.ieee.org/document/5539857
这篇论文是特别经典的多源迁移学习论文,也是在 TrAdaBoost(W. Dai, Q. Yang, 2007)框架基础上提出的算法。相对于 TrAdaBoost 只依赖一个源域,算法很容易受到负迁移的影响。这项工作提出了多源迁移学习的问题,以改进目标分类器的训练,并且提出了 MultiSource-TrAdaBoost 与 TaskTrAdaBoost 算法。
图1(b)与图1(c)表示两种算法的概念图。MultiSource-TrAdaBoost 标识出来自不同源域的哪些训练实例可以与目标训练实例一起重用,以增强目标分类器。TaskTrAdaBoost 使用参数传递方法,提取出构成源任务分类器 模型的参数。
由于源任务是显式描述的,而不是通过带标记的源训练数据隐式描述的。出于这个原因,这个基于参数迁移的方法可以被认为是一个 task-transfer 方法,其中子任务来自各种源任务,可以重复利用,加上目标训练实例,来提高目标分类器。
1.1 MultiSource-TrAdaBoost
首先介绍一下 TrAdaBoost 算法,其主要思想是:给定了某种训练方法,最终分类器是各迭代中分类器的加权和。源域数据与目标域数据合成一个训练集,并将训练集里面的样本赋予一个相同的初始权重,并将权重信息与样本信息组合起来得到一个初始基分类器。
然后计算基分类器 在目标域测试集上误差,此误差与目标域相关程度有关。然后计算基分类器的权重