知识蒸馏不太适合用于(分布式学习中)对在不同分布上学习得到的模型的集成,原因是:Teacher必须得有一本book才能教给Student,并且传递的知识只限于book的内容,因此book本身必须能反映整体数据的分布才行,相当于只教了死记硬背没有教其中的逻辑推理关系。还有一个问题,如果book本身能够能够反映整体分布,我又何必去学不同分布上的数据呢。
思考:知识蒸馏的缺点
最新推荐文章于 2024-06-18 16:15:10 发布
知识蒸馏不太适合用于(分布式学习中)对在不同分布上学习得到的模型的集成,原因是:Teacher必须得有一本book才能教给Student,并且传递的知识只限于book的内容,因此book本身必须能反映整体数据的分布才行,相当于只教了死记硬背没有教其中的逻辑推理关系。还有一个问题,如果book本身能够能够反映整体分布,我又何必去学不同分布上的数据呢。