在实际应用场景中,导致模型预测异常的原因不仅仅来自模型参数或结构异常,还可能来自数据自身。神经网络不会理解数据,只会学习数据的特征。因此当数据出现分布异常时,很容易使得模型学到异常的特征,导致灾难性的预测结果.
协变量偏移:
协变量偏移可以说是分布偏移中最常遇到的一类,当输入分布改变时,若标签函数未改变,很容易导致将输入映射到异常标签中,导致错误结果。
以猫狗分类为例,当训练集中图像都来自真实到猫狗图像,而测试集图像均为卡通猫狗图像时,在这种训练集特征与测试集特征存在本质不同的数据集上训练模型,很容易因协变量偏移导致异常结果。
标签偏移
标签偏移实质上是一个与协变量偏移相反的问题,协变量偏移是标签分布未变,训练数据与测试数据的分布发生了变化,导致模型在训练集学习到的特征很难泛化到测试集,从而性能出现下降。
而标签偏移是在训练集与测试集中,数据的分布未变,但标签的分布发生了变化,例如训练集中猫的比列占90%,狗的比例占10%。而在测试集中,狗的比列占90%,猫的比列仅占10%。这种数据和标签的变化很容易导致模型出现过拟合或欠拟合的问题。
概念偏移
相较于常见的标签偏移和协变量偏移,概念偏移的现象往往在机器翻译任务中出现,例如不同地区的同一个词具有不同的概念解释。这种数据在输入到模型训练时,同一个词可能会因地区的不同获得不同的解释。