领域自适应简述

最新推荐文章于 2024-08-16 09:23:52 发布

旺旺棒棒冰

最新推荐文章于 2024-08-16 09:23:52 发布

阅读量2.6w

点赞数 12

分类专栏： nlp应用文章标签：机器学习领域自适应

原文链接：https://zhuanlan.zhihu.com/p/21441807

版权

nlp应用专栏收录该内容

27 篇文章 4 订阅

订阅专栏

摘自 https://zhuanlan.zhihu.com/p/21441807 深度学习大讲堂

领域自适应问题中两个至关重要的概念：源域（source domain）表示与测试样本不同的领域，但是有丰富的监督信息，目标域（target domain）表示测试样本所在的领域，无标签或者只有少量标签。源域和目标域往往属于同一类任务，但是分布不同。

根据目标域和源域的不同类型，领域自适应问题有四类不同的场景：无监督的，有监督的，异构分布和多个源域问题。

机器学习的经典流程可以看作：收集训练集的数据，提取特征，在训练集上依据经验误差最小准则学习分类器。如果训练集和测试集分布一致，则模型效果好。如果分布不一致，在源域过拟合，在目标域上效果不好。

通过在上述流程的不同阶段进行领域自适应，研究者提出了三种不同的领域自适应方法：1）样本自适应，对源域样本进行加权重采样，从而逼近目标域的分布。2）特征层面自适应，将源域和目标域投影到公共特征子空间。3）模型层面自适应，对源域误差函数进行修改，考虑目标域的误差。

这里写图片描述

样本自适应：其基本思想是对源域样本进行重采样，从而使得重采样后的源域样本和目标域样本分布基本一致，在重采样的样本集合上重新学习分类器

特征自适应：其基本思想是学习公共的特征表示，在公共特征空间，源域和目标域的分布要尽可能相同。上图中所示为Long等人基于DL的迁移学习框架，其网络结构和标准CNN基本一致，不同之处在于对最后的全连接层特征增加了一个MMD约束，使得源域和目标域要具有尽可能相同的分布。通过特征自适应，将输入的样本投影到公共子空间，通过计算源域的经验误差，逼近目标域的经验误差能相同的分布

模型自适应：其基本思想是直接在模型层面进行自适应。模型自适应的方法有两种思路，一是直接建模模型，但是在模型中加入“domain间距离近”的约束，二是采用迭代的方法，渐进的对目标域的样本进行分类，将信度高的样本加入训练集，并更新模型。

这里写图片描述