1. 网络结构:
Gate为全连接网络,用来学习哪个网络更重要。目前利用全连接网络选择网络部件重要性的方法很流行。“三个臭皮匠顶个诸葛亮?”,感觉很像bagging方法。
2. 损失函数:
训练时softmax都有温度T=3蒸馏,测试时就恢复T=1。
1. 网络结构:
Gate为全连接网络,用来学习哪个网络更重要。目前利用全连接网络选择网络部件重要性的方法很流行。“三个臭皮匠顶个诸葛亮?”,感觉很像bagging方法。
2. 损失函数:
训练时softmax都有温度T=3蒸馏,测试时就恢复T=1。