数据集偏移与归纳投影问题解析
1. 数据集偏移的判定与实际考量
在处理各类数据集偏移问题时,首要难题是判断是否真的存在偏移。使用能处理协变量偏移的建模方法,在无偏移的数据上可能比标准模型效果更差。原因主要有两点:
- 引入偏移可能性会带来大量可能的表示形式,削弱了假设无偏移时更具体(但较僵化)的假设。
- 建模协变量偏移的各种方法可能存在自身缺陷,如局部极小值问题,这意味着它们不能很好地涵盖无偏移的情况。例如,最大似然解可能会利用数据集偏移模型的自由度进行过拟合来提高似然性,即便假设无偏移能有更好的泛化能力。
在实际应用中,一些实际考量应优先于理论上的完美性。虽然仅依据训练协变量、训练目标和测试协变量来判断是否发生协变量偏移是有趣的尝试,也有助于从有限的模型中做出选择,但在许多实际场景中(主要例外是单一未来预测情况),从业者在推广模型使用前,必须在实际开发环境中对模型进行检验。获取一些测试目标并据此进行评估是必要的,因为即使少量的测试目标也能提供关于数据集偏移的大量信息,就像半监督学习相比无监督学习能带来重大益处一样。在这个阶段,如果不考虑无偏移模型,除非能事先确定某种特定形式的数据集偏移,否则是不合理的。半监督方法在测试领域带来的重大改进绝不能被忽视,测试领域的目标是非常有价值的信息。
2. 数据集偏移与迁移学习的关系
数据集偏移和迁移学习密切相关。迁移学习探讨如何从多个部分相关的训练场景中获取信息,以在其中一个场景中提供比仅使用该场景数据更好的预测。数据集偏移是只有两个场景且其中一个场景没有训练目标的特殊情况。多任务学习也与之相关,在多任务学习中,会获取给定输入在各种任务上的响应,并利用任务间的信息辅助预测。多任务学习可以看作是迁移
订阅专栏 解锁全文
21

被折叠的 条评论
为什么被折叠?



