笔记:Transfer Learning with Active Queries from Source Domain

基于源域主动查询的迁移学习

Transfer Learning with Active Queries from Source Domain

  • Introduction
  • Algorithm
  • Optimization
  • Evaluation

Introduction

首先我将介绍一下这篇文章的主要背景知识介绍,分为三部分,分别为迁移学习,主动学习,待解决问题。

名词解释

样本:能够用一些特征表示的事物。
标签:能够绝对分类样本的属性
域:代表一些样本的集合。
标签样本:有标签的样本。
未标签样本:无标签的样本
源域:有一定数量的标签样本,能够迁移一定的信息到目标域当中。
目标域:希望解决问题的样本域,标签样本数量较少。

Transfer Learning迁移学习

tl

上图介绍了迁移学习与传统机器学习的区别。
传统的机器学习知识将来自不同域的样本分别学习,之间不会产生任何关系。但是迁移学习在目标域当中没有足够多甚是没有标签样本时,会从一些与这个目标域类似的源域当中来学习一些知识帮助目标域的操作。主要是从源域到目标域的知识迁移。

Active Learning主动学习

AL

主动学习背景基本相似,也是在想要进行一些目标操作的样本域(称为目标域)当中没有足够多甚是没有标签样本,此时在同一个样本域中挑选尽量少的未标签样本出来进行人工标签,从来达到一个尽量高的分类精度。

两种算法都是用来解决在目标域当中标签样本不足的问题。

Problem setting in this paper待解决问题

这里写图片描述
这篇文章中的待解决问题如上:标签样本在源域和目标域都是有限的,并且主动查询只有在源域当中才适用,就是说我们没有办法获得更多的目标域标签样本,只能在源域中进行选择,标签,期望能够用尽量小的源域主动选择次数达到在目标域上尽量有效的模型。

Algorithm

算法部分将首先介绍一下这篇文章中迁移学习所采取的样本分布假设。
这篇文章中采取的样本分布假设是协方差变换假设:

Covariate Shift

首先介绍一些迁移学习下的一般目标函数

Let Θ be a model family from which we want to select an optimal model θ∗ for our classification task. Let l(x, y, θ) be a loss function. we want to minimize the following objective function in order to obtain the optimal model θ∗ for the target distribution P(X, Y):
假设theta是模型参数,l是损失函数,期望在目标域中最小目标函数来获得最佳的theta。
这里写图片描述
上式中x,y分别表示样本的特征向量和标签,l是损失函数,theta是模型参数。
但是如上式中的Pt(x,y),即目标域样本特征和标签的联合分布我们没有办法知道;则我们遵循协方差转化假设,上式可以写为:
这里写图片描述
值的注意的是:源域样本特征和标签的联合分布我们用其估计来代替。
则目标函数中每个源域样本之前的参数可表示为Pt(x,y)/Ps(x,y).

we assume that Ps(Y| X = x) = Pt(Y| X = x) for all x ∈ X, but Ps(X) ≠Pt(X), This difference between the two domains is called covariate shift.
由此,我们假设源域和目标域的条件概率相同但是先验概率不同。这个假设就成为协变量转换。

Under covariate shift, the ratio can be rewritten as follows:
基于协变量转换假设,我们可以得到上面的联合分布比率为:
这里写图片描述
We therefore want to weight each training instance with Pt(x)/Ps(x).
由此,我们可以得到目标函数中每个训练样本的权重为Pt(x)/Ps(x)。
这里写图片描述
由此,在下面的表示当中,我们定义beta(x)=Pt(x)/Ps(x).

Maximum Mean Discrepancy (MMD)

在介绍算法之前呢,先介绍一个用来计算分布差异的方法,叫做最大平均差异(MMD),这篇文章中主要用这个方法来计算样本域之间的分布差异。

这里写图片描述
首先算法定义了一个函数集合f,其中,p,q分别表示分布函数,X,Y分别表示样本集合,定义
MMD和其经验估计如下:
MMD即为两个期望差的上确界,期望分别是两个不同分布的样本函数的期望。
经验估计则取了函数值的均值。
这里写图片描述
为了映射到希尔伯特空间,可以讲函数表示为内积(后期可以拓展到核函数,这里不多赘述)
这里写图片描述
映射到希尔伯特空间之后,可以推断期望差值的上确界可以近似为期望之间的范数,最终可以得到上面(4)式中的形式。

下面介绍本篇文章的主要算法

Distributions Discrepancy

To avoid the density estimation, directly optimize the importance weights byminimizing the distance between the distributions of the target domain and adapted source domain. Employ MMD as the criterion to estimate the distance between different distributions.
为了避免核密度估计,我们直接优化样本权重beta(x),通过最小化适应之后的源域和目标域之间的分布差异来获得最优的权重值,衡量分布差异我们采用MMD方法。
这里写图片描述
上面表示适应后的源域样本集。
式子1
这里表示适应后源域与目标域的分布差异;
The distributions of labeled data and unlabeled data should be close, such that the model trained will have good generalization ability:
在考虑适应后源域与目标域的分布差异之后,我们考虑主动学习选择样本,我们希望挑选出来的样本能够满足边缘分不匹配的方法,也就是说:标签样本和未标签样本之间的分布要尽量接近,从而有更加好的泛化能力。

其中,Q,大小为nU,表示从Su中选择出来查询其标签的样本集,用一个nU维的向量alpha表示这个样本是否被选择,第i维为1表示选择第i个样本,为0表示不选择;其后,MMD用来衡量标签样本和未标签样本之间的分布差异。
这里写图片描述
上式中,标签样本由三部分组成:源域标签样本Sl,目标域标签样本Tl,主动选择查询样本集Q;未标签样本由两部分组成:源域未标签样本Su,目标域未标签样本Tu。hat表示适应后的样本集。

uncertainty term

由于上述主动选择过程中没有考虑到标签信息,这里再结合一项不确定性。
这里写图片描述
在样本选择的不确定项上,首先用现有的分类器g对所有Su中的样本进行预测,记为gSu。则不确定项可以表示成|g(x)|,就是说预测值越接近0
,样本的不确定性越大, αβ|gSu|

we have the following framework for Transfer Learning with Active queries from Source domain.
由此,得到了算法的基本框架:
这里写图片描述
这里 λ 是一个平衡参数。

Framework

模型]![这里写图片描述
将式3展开就可以得到上式, α 向量的和为nQ,所有源域的样本均需重新权重化,且Su中 α 为1即为选择出的样本,为0记为选择后的源域未标签样本集。

Optimization

由于有两个参数,采取迭代优化策略,即固定一个,优化另一个,交替优化直至收敛。
由于 α 的范围为{0,1},所以上式求解一个NP难问题,所以将 α 的取值范围放宽,改为[0,1],这样式4是一个内向凸问题,能够迭代求解。

这里写图片描述
首先固定 β
这里写图片描述
可以看出式4中固定 β 之后为一个关于 α 的二次函数,可得上式。

其次固定 α
这里写图片描述
这里写图片描述
这里写图片描述
同理

Algorithm

这里写图片描述
算法总结如上图: α 放松限制之后我们选择优化后前面nQ个最大的 α 值出来进行标签。 β 可以选择全部初始化为1.

Experiment

dataset

datasetSentiment Analysistext categorization
domainBook,DVD,Electronics and KitchenOrgs,People and Places

两个样本集,分别包含几个域,用不同的域互换来做源域和目标域。

Baseline

这里写图片描述

Random,随机选择样本,用kmm方法来计算分布差异。
US,不确定选择样本,用kmm方法来计算分布差异。
MPAL,用分布匹配在源域中选择样本。
TLAS-b,用KMM来固定 β ,用式5来优化 α
TLAS,文章方法。

Evaluation

Sentiment analysis

这里写图片描述
在Sentiment analysis 样本集中,不同的源域与目标域配对,可以看到这篇文章中的算法的分类精度远高于其他算法。

Text categorization

这里写图片描述
在Text categorization数据集中,效果也很好。并且在不同的目标域初始标签样本比率之下,这篇文章中的算法也有着很好的表现。

参考文献:
https://www.ijcai.org/Proceedings/16/Papers/228.pdf

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值