原文:《Distilling the Knowledge in a Neural Network》 目录 前期知识 集成模型(Ensemble Models) Bagging Boosting 缺点 知识蒸馏思想 算法部分 知识蒸馏方法 引入温度参数 T(Temperature) 组合两种 Loss 前期知识 集成模型(Ensemble Models) 通过结合了来自多个模型的决策,以提高最终模型的稳定性和准确性。 Bagging 从原始样本抽取训练集:每轮从原始样本集抽取 n 个样本,共进行 k 轮抽取,获得 k 个训练集 每次使用一个训练集获得一个模型,共得到 k 个模型 对 k 个模型的预测结果进行组合(例如投票法