知识蒸馏学习知识

精度更高的神经网络:通常参数更多,时延更高

知识蒸馏方法可以分为基于目标蒸馏(也称为Soft-target蒸馏或Logits方法蒸馏)和基于特征蒸馏。

大模型不方便部署到服务器中,常见的瓶颈如下:

    • 推断速度慢
    • 对部署资源要求高(内存,显存等)。在部署时,我们对延迟以及计算资源都有着严格的限制。

模型压缩:在保证模型性能的情况下减少模型的参数量。

一个模型的参数量基本决定了其所能捕获到的数据内的知识的量。

模型的参数量和所能捕获到的知识量并非呈现稳定的线性关系,而是接近边际收益逐渐减少的一种增长曲线。

熵越高,分布越乱。

一个函数越平滑,说明其函数值变化小。

ground truth:真实标签

交叉熵损失函数(CrossEntropy Loss):是分类问题中常用的一种损失函数,一般使用交叉熵作为损失函数时,模型的结尾总是会跟一个softmax函数。

交叉熵:主要用于度量用于两个概率分布的差异性。

交叉熵相关知识:信息是用来消除随机不确定的东西。信息量的大小与信息发生的概率成反比。

信息量大小:交叉熵损失函数原理详解_Cigar丶的博客-CSDN博客_交叉熵损失函数

交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度,在机器学习中就表示为真实概率分布与预测概率分布之间的差异。交叉熵的值越小,模型预测效果就越好。

交叉熵在分类问题中常常与softmax是标配,softmax将输出的结果进行处理,使其多个分类的预测值和为1,再通过交叉熵来计算损失。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值