stage-wise manner:
传统的图像识别问题往往通过分治法将其分解为预处理,特征提取和选择,分类器设计等若干步骤。分治法的动机是将图像识别的母问题分解为简单、可控且清晰的若干小的子问题。不过分步解决子问题时,尽管可以在子问题上得到最优解,但子问题上的最优解并不意味着就能得到全局问题的最后解。
end-to-end training:
深度学习提供了一种端到端的学习范式,整个学习的流程并不进行人为的子问题划分,而是完全交给深度学习模型直接学习从原始数据到期望输出的映射。
对深度模型而言,其输入数据是未经任何人为加工的原始样本形式,后续则是堆叠在输入层上的众多操作层,这些操作层整体可以看作一个复杂的函数FCNN, 最终的损失函数由数据损失data loss和模型参数的正则化损失(regularization loss)共同组成,模型深度的训练则是在最终损失驱动下对模型进行参数更新并将误差反向传播至网络各层。
存在的问题(end-to-end training):
端到端模型的一个劣势,就是贡献分配问题,这也是深度学习的一个弊病。在多模块解决方案中,我们可以比较清晰地看到/检测每一个模块的性能,也就是贡献;而在端到端模型中,我们很难确定模型中「组件」对最终目标的贡献是什么样的。换一句话说,模型变得更加「黑盒」了,也就降低了网络的可解释性。另外,端到端模型的灵活性也更低,比如原本的多个模块中数据的获取难度不一样的时候,可能不得不依靠额外的模型来协助训练。