蒸馏的本意是通过物质不同的沸点,分离出所需的物质。神经网络的KD也是如此,但用下面的图例更容易被接受。可以发现6岁后对同一区域的神经网络开始简化,只保留最有用的部分。
问题来了:为什么不直接训练小网络,要大费周折先训练一个大的,再化简到小的呢?
因为大的网络训练更容易实现,这好比买大乐透,买的越多中奖的概率越大。
weight pruning 使得矩阵不规则,GPU无法加速
法二解释:聚类后,用cluster的id表示,(数值可以取均值)
法三解释:霍夫曼编码,比较多出现的用比较少的bite表示,比较少出现的用比较多的bite表示,