网络轻量化 - 知识蒸馏(knowledge distillation)

本文介绍了知识蒸馏的概念,这是一种通过模仿预先训练好的大型网络(teacher)来训练小型网络(student)的技术,以实现模型的轻量化。文章探讨了集成模型的优缺点,并详细阐述了知识蒸馏的思想,包括引入温度参数T来丰富信息蒸馏,以及通过调整Loss Function实现student网络的学习。这种方法有助于解决深度学习模型在移动端应用的计算资源和效率问题。
摘要由CSDN通过智能技术生成

原文:《Distilling the Knowledge in a Neural Network》

前期知识

集成模型(Ensemble Models)

通过结合了来自多个模型的决策,以提高最终模型的稳定性和准确性。

Bagging

  • 从原始样本抽取训练集:每轮从原始样本集抽取 n 个样本,共进行 k 轮抽取,获得 k 个训练集
  • 每次使用一个训练集获得一个模型,共得到 k 个模型
  • 对 k 个模型的预测结果进行组合(例如投票法
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值