Multisource Domain Adaptation and Its Application to Early Detection of Fatigue(阅读笔记)

CP-MDA(Conditional-probability based multi-source domain adaptation)

方法描述:已知源域和目标域,其中源域数据的特征和标签已知,目标域中数据特征已知,极少数数据标签已知(这里我觉得就算半个数据标签已知,就是semi-supervised)。现在将源域中数据分成若干子源域(我这里有个疑问是关于如何分堆,或者是说每两个子源域之间有没有共同的样本,或者说每个子源域之间有交集,但是从后面作者的叙述过程中,他声称CP-MDA中考虑到了各个子源域之间的相互关系,所以我这里倾向于是子源域之间是有交集的)。每个子源域通过训练都可以得到一个分类函数,把目标域中的每个无标签的数据输入到分类函数中,都能得到对应的标签。但是,考虑到源域和目标域的数据分布的不同,由子源域得到的目标域标签可能是错误的。因此,作者希望为每个子源域训练出的分类函数赋予一个权值,在把所有的分类函数线性组合起来,构成一个新的分类器。在得到新的分类函数后,将目标域中的无标签数据输入到分类函数的到无标签数据的标签,成为伪标签,最后利用目标域中的有标签数据和伪标签数据,训练最终目标域的模型。因此现在的关键任务就是求每个分类函数的权值。

思路分析:在求权值之前,作者首先通过直观的感受,认为当子源域与目标域相近时,应该被赋予较大的权值。这个近似程度就利用两个域之间的数据分布的来衡量。可以是条件分布,也可以是边缘分布,CP-MDA主要是利用的条件分布。首先给出目标域样本的预测模型。
在这里插入图片描述
这个模型一共四个部分,第一部分是目标域分类器在再生核希尔伯特空间中的复杂度表述,前面的系数是惩罚因子。第二部分是目标域分类器是对目标域中带标签数据的分类误差。nl是数据的个数。第三部分是组合分类器对目标域中不带标签的数据的分类误差。第四项是对目标域上样本数据分布的平滑性的约束。对于这个平滑性的理解,我们可以认为在目标域上,对于好的分类器,输入两个距离很近的样本数据,得到的标签越相近,分类器的性能也越优越。这个平滑度的作用是求最佳的权值时,作为一个限制条件。
我们这里先考虑第三项。
在这里插入图片描述
上式是目标域的分类函数,也是目标域中每个无标签样本的真标签。也可以表示为下式。
在这里插入图片描述
在这里插入图片描述
我们利用子源域得到的组合分类函数,也是目标域中每个无标签样本的伪标签。也可以表示为下式。
在这里插入图片描述利用子源域组成的新的分类函数以及对应的权值,我们可以得到目标域中每个无标签样本的伪标签。
在这里插入图片描述接下来,我们求权重。作者这里利用了平滑性,就是说好的分类函数在目标域中,对于两个距离很近的样本点,他们应该有着相同的分布(这里指条件分布),也就是说将两个样本的特征向量输入到分类函数中,应该得到相同的标签。
在这里插入图片描述选择目标域中两个无标签的样本 i 和 j,w表示两个样本之间的关系的系数,可以由下式得到。
在这里插入图片描述
将优化权重的式子展开。
在这里插入图片描述
在这里插入图片描述对于上式,可以利用MATLAB函数quadprog求解二次规划问题。得到最佳的权重。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
无监督的多源域自适应是指在没有访问源数据的情况下进行的域自适应方法。为了解释这一概念,首先需要了解两个关键术语的含义:域自适应和多源。 域自适应是指在机器学习和数据挖掘中,将模型从一个域(即数据的分布)迁移到另一个域的过程。域自适应的目标是使模型在目标域上具有更好的性能,而不需要重新训练或收集目标域的数据。 多源是指使用来自多个源领域的数据来进行域自适应。这种情况下,我们有多个源域的数据,但没有目标域的数据。这可能是因为目标域的数据很难收集、昂贵或没有权限访问。 在无监督的多源域自适应中,我们试图使用多个源域的数据来进行迁移学习,从而在没有目标域数据的情况下提高目标域上的性能。这个问题是非常具有挑战性的,因为我们没有标签的目标域数据来指导模型的训练。 一种常见的方法是使用领域间的分布差异来进行特征学习。例如,可以使用深度神经网络来学习源域和目标域之间的有用特征。通过最小化源域和目标域之间的距离,我们可以使网络学习到一组在多个域上通用的特征表示。 另一个方法是使用领域适应的损失函数。这种损失函数通过最大化源域和目标域之间的相似性,或最小化它们之间的差异,来迫使模型在目标域上有更好的性能。 总的来说,无监督的多源域自适应是一种在没有目标域数据的情况下使用多个源域数据进行迁移学习的方法。它可以通过学习通用特征或使用领域适应的损失函数来提高目标域上的性能。这种方法对于许多现实世界的情况是非常有用的,例如在医疗图像诊断和自然语言处理等领域中。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值