研究目标检测算法时,研究人员通常都会假设训练集和测试集是独立同分布的,即所有的图像数据都采集于同一分布并且相互独立。当训练集和测试集来源于同一数据集时,这样的假设通常会成立。
这里的数据分布,主要分为两种,第一种是边缘分布,指的是产生数据的分布,其分布不同是表明数据的产生的机制不同,比如说,不同的主题的文本特征。另外一种分布是条件分布,指的是数据和标签之间的后验概率分布。条件分布不同指的是,即使数据是来自于同一边缘分布,但是其具体的下游数据任务不同,如分类任务和回归任务的不同,也会导致条件分布不同。
然而,当算法部署到现实环境时,由于一些光照、背景、图像质量、拍摄角度等原因,现实环境中获取的图像数据与训练算法使用的训练集图像往往不满足独立同分布的假设。这个属于产生的机制不同,边缘分布不同。此时目标检测算法的性能可能因为模型训练使用图像和实际应用获取图像间的差异而急剧下降。