1 Optimizing dilemma
深度学习存在“优化困境”,简单来说,深度神经网络的训练无法保证总能找到最优参数(最优解);
这一点我们从下面的现象中可以看到:
- 知识蒸馏的出现:知识蒸馏的出现说明小模型具有优化难的问题,因为如果小模型本身可以优化到一个更好的解,那么知识蒸馏就没有必要了;
1.1 优化困境的猜想
1.1.1 @大模型比小模型更容易优化
通过知识蒸馏思想,我们其实可以推想:大模型比小模型更加容易进行优化;
除此之外,重参数化也就是该猜想的一个有利证据,比如:Rep-VGG和ACNet;都是利用了此猜想而获得了较好的结果;