Domain Shift介绍

最新推荐文章于 2024-08-31 00:12:39 发布

CtrlZ1

最新推荐文章于 2024-08-31 00:12:39 发布

阅读量3.2k

点赞数 4

分类专栏：数学

本文链接：https://blog.csdn.net/qq_41076797/article/details/118634546

版权

数学专栏收录该内容

15 篇文章 1 订阅

订阅专栏

                    
                    首先需要知道著名的贝叶斯公式：
  
          p 
         
          ( 
         
          x 
         
          , 
         
          y 
         
          ) 
         
          = 
         
          p 
         
          ( 
         
          x 
         
          ∣ 
         
          y 
         
          ) 
         
          p 
         
          ( 
         
          y 
         
          ) 
         
          = 
         
          p 
         
          ( 
         
          y 
         
          ∣ 
         
          x 
         
          ) 
         
          p 
         
          ( 
         
          x 
         
          ) 
         
         p(x,y)=p(x|y)p(y)=p(y|x)p(x) 
        
     p(x,y)=p(x∣y)p(y)=p(y∣x)p(x)
 Domain Shift主要有三种情况，分别是由于输入的边缘概率分布 
      
          p 
         
          ( 
         
          x 
         
          ) 
         
         p(x) 
        
     p(x)、输出标签的边缘概率分布 
      
          p 
         
          ( 
         
          y 
         
          ) 
         
         p(y) 
        
     p(y)、对应的条件概率分布 
      
          p 
         
          ( 
         
          x 
         
          ∣ 
         
          y 
         
          ) 
         
         p(x|y) 
        
     p(x∣y)或者 
      
          p 
         
          ( 
         
          y 
         
          ∣ 
         
          x 
         
          ) 
         
         p(y|x) 
        
     p(y∣x)（后验分布）不一致导致的。
Covariate Shift：输入的边缘概率分布不同，其他相同。以领域自适应为例，源域S，目标域T，即 
      
           p 
          
           s 
          
          ( 
         
          x 
         
          ) 
         
          ≠ 
         
           p 
          
           t 
          
          ( 
         
          x 
         
          ) 
         
         p_s(x)≠p_t(x) 
        
     ps​(x)​=pt​(x)，但是条件概率分布相等， 
      
           p 
          
           s 
          
          ( 
         
          y 
         
          ∣ 
         
          x 
         
          ) 
         
          = 
         
           p 
          
           t 
          
          ( 
         
          y 
         
          ∣ 
         
          x 
         
          ) 
         
         p_s(y|x)=p_t(y|x) 
        
     ps​(y∣x)=pt​(y∣x)，输出标签的边缘概率分布也相等， 
      
           p 
          
           s 
          
          ( 
         
          y 
         
          ) 
         
          = 
         
           p 
          
           t 
          
          ( 
         
          y 
         
          ) 
         
         p_s(y)=p_t(y) 
        
     ps​(y)=pt​(y)。这个很好理解，就是数据采样方式不同，导致输入数据的分布压根就不一样。
Prior Shift（即Label Shift）：从名字也可以看出，输出的边缘概率分布（先验分布）不同，即 
      
           p 
          
           s 
          
          ( 
         
          y 
         
          ) 
         
          ≠ 
         
           p 
          
           t 
          
          ( 
         
          y 
         
          ) 
         
         p_s(y)≠p_t(y) 
        
     ps​(y)​=pt​(y)，对应的条件概率分布相等，即 
      
           p 
          
           s 
          
          ( 
         
          x 
         
          ∣ 
         
          y 
         
          ) 
         
          = 
         
           p 
          
           t 
          
          ( 
         
          x 
         
          ∣ 
         
          y 
         
          ) 
         
         p_s(x|y)=p_t(x|y) 
        
     ps​(x∣y)=pt​(x∣y)。这种偏移属于先天类型的偏移，是由于源域数据和目标域数据每个标签的数据出现的频率不一样导致的，比如标签为猫的数据在源域中占了80%，而在目标域中只有30%。
Concept Shift：两个边缘概率分布都相同，即 
      
           p 
          
           s 
          
          ( 
         
          x 
         
          ) 
         
          = 
         
           p 
          
           t 
          
          ( 
         
          x 
         
          ) 
         
         p_s(x)=p_t(x) 
        
     ps​(x)=pt​(x)、 
      
           p 
          
           s 
          
          ( 
         
          y 
         
          ) 
         
          = 
         
           p 
          
           t 
          
          ( 
         
          y 
         
          ) 
         
         p_s(y)=p_t(y) 
        
     ps​(y)=pt​(y)，但是后验分布不同，即 
      
           p 
          
           s 
          
          ( 
         
          y 
         
          ∣ 
         
          x 
         
          ) 
         
          ≠ 
         
           p 
          
           t 
          
          ( 
         
          y 
         
          ∣ 
         
          x 
         
          ) 
         
         p_s(y|x)≠p_t(y|x) 
        
     ps​(y∣x)​=pt​(y∣x)。这种比较奇怪，我感觉就是模型的问题。比如面对同样的目标域样本，然后域适应模型分类错误的概率比纯粹在目标域样本上训练的模型高，就是说模型能力不行。还有个例子是：输入数据类型分布相同，但是学习的任务发生了变化；比如在水处理系统的传感器时间序列异常检测中，因为上游放水，一段维持较高水位，但是并不能和其余时间一样被认定为是报警事件。但这种学习任务发生变化的不太可能在训练过程中发生。