从量化损失度量方法来分:
1. L2距离:并不关注准确的L2距离,只需要比较相对大小
2. KL散度:衡量分布差异,TensorRT的方案,因此使用较广泛。同系列的还有symKL、JSD等
3. 余弦相似度:衡量向量方向上的差异,余弦相似度越接近1误差越小,优化时是最大化余弦相似度。
https://zhuanlan.zhihu.com/p/368852512
https://apposcmf8kb5033.pc.xiaoe-tech.com/live_pc/l_65685385e4b0694cd8f27e73