Domain Shift介绍

  • 首先需要知道著名的贝叶斯公式:
    p ( x , y ) = p ( x ∣ y ) p ( y ) = p ( y ∣ x ) p ( x ) p(x,y)=p(x|y)p(y)=p(y|x)p(x) p(x,y)=p(xy)p(y)=p(yx)p(x)
    Domain Shift主要有三种情况,分别是由于输入的边缘概率分布 p ( x ) p(x) p(x)、输出标签的边缘概率分布 p ( y ) p(y) p(y)、对应的条件概率分布 p ( x ∣ y ) p(x|y) p(xy)或者 p ( y ∣ x ) p(y|x) p(yx)(后验分布)不一致导致的。
  • Covariate Shift:输入的边缘概率分布不同,其他相同。以领域自适应为例,源域S,目标域T,即 p s ( x ) ≠ p t ( x ) p_s(x)≠p_t(x) ps(x)=pt(x),但是条件概率分布相等, p s ( y ∣ x ) = p t ( y ∣ x ) p_s(y|x)=p_t(y|x) ps(yx)=pt(yx),输出标签的边缘概率分布也相等, p s ( y ) = p t ( y ) p_s(y)=p_t(y) ps(y)=pt(y)。这个很好理解,就是数据采样方式不同,导致输入数据的分布压根就不一样。
  • Prior Shift(即Label Shift):从名字也可以看出,输出的边缘概率分布(先验分布)不同,即 p s ( y ) ≠ p t ( y ) p_s(y)≠p_t(y) ps(y)=pt(y),对应的条件概率分布相等,即 p s ( x ∣ y ) = p t ( x ∣ y ) p_s(x|y)=p_t(x|y) ps(xy)=pt(xy)。这种偏移属于先天类型的偏移,是由于源域数据和目标域数据每个标签的数据出现的频率不一样导致的,比如标签为猫的数据在源域中占了80%,而在目标域中只有30%。
  • Concept Shift:两个边缘概率分布都相同,即 p s ( x ) = p t ( x ) p_s(x)=p_t(x) ps(x)=pt(x) p s ( y ) = p t ( y ) p_s(y)=p_t(y) ps(y)=pt(y),但是后验分布不同,即 p s ( y ∣ x ) ≠ p t ( y ∣ x ) p_s(y|x)≠p_t(y|x) ps(yx)=pt(yx)。这种比较奇怪,我感觉就是模型的问题。比如面对同样的目标域样本,然后域适应模型分类错误的概率比纯粹在目标域样本上训练的模型高,就是说模型能力不行。还有个例子是:输入数据类型分布相同,但是学习的任务发生了变化;比如在水处理系统的传感器时间序列异常检测中,因为上游放水,一段维持较高水位,但是并不能和其余时间一样被认定为是报警事件。但这种学习任务发生变化的不太可能在训练过程中发生。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CtrlZ1

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值